Spraakherkenningspakketten
Zoals onder Whisper uitgelegd, zijn de afgelopen jaren verschillende ASR-pakketten op basis van Whisper uitgekomen. De pakketten draaien onder Windows of MacOS (Linux laten we hier buiten beschouwing) en zijn in de regel gratis te gebruiken.
Voor Windows is er:
- Faster-Whisper-XXL
Dit is een command line tool waarmee je tot in detail kunt bepalen hoe je de herkenning precies wilt doen. Als voorbeeld heb ik bv:
C:\Users\ajvan> faster-whisper-xxl "E:\Documenten\Whisper\Schouten.wav" --model large-v2 --language nl --device cuda --output_dir "E:\Documenten\Whisper" --diarize pyannote_v3.1 --num_speakers 6 --output_format all --verbose false
Hiermee doe ik de volgende dingen.
Ik geef opdracht om de wav-file Schouten.wav uit de directory E:\Documenten\Whisper\ te herkennen met het large-v2 model.
Ik geef aan dat ik een grafische kaart heb die gebruikt moet worden (--device cuda).
Dan zeg ik dat de resultaten neergezet moeten worden in de directory
E:\Documenten\Whisper\.
Voor de diarizatie geef ik op welk model gebruikt moet worden en hoeveel verschillende sprekers er zijn (6).
Tenslotte geef ik aan dat ik de resultaten in alle mogelijke formaten wil hebben en dat ik tijdens de herkenning niets op het scherm wil zien (--verbose false).
- aTrain
Dit is een groot pakket (ong 1 GB), ontwikkeld door onderzoekers van het Business Analytics and Data Science-Center van de Universiteit van Graz en vervolgens getest door onderzoekers van het Know-Center Graz
Het is een tool voor het automatisch transcriberen van spraakopnames met behulp van state-of-the-art machine learning modellen zonder gegevens naar het internet te uploaden.
Windows (10 en 11) gebruikers kunnen aTrain installeren via de Microsoft app store of door de installer te downloaden van de BANDAS-Center Website.
Voor MacOS is er:
- MacWhisper
Het transcribeert snel en eenvoudig audiobestanden naar tekst met de geavanceerde transcriptie technologie Whisper. Het heeft daarnaast nog een groot aantal features om er nog andere dingen mee te doen zoals modellen beheren, Batch transcriptie te doen, je spraak in te spreken en direct te laten herkennen en meer.
Het kan gratis gedownload worden maar dan heb je een paar nadelen: je kunt de grotere (en betere) modellen niet gebruiken. Mijn advies is altijd: download de gratis versie, en kijk of het aan je verwachtingen voldoet. Zo ja, koop een licentie.