Whisper

Eind september 2022 gaf OpenAI de code vrij van Whisper: een End-to-End spraakherkenner die 99 talen redelijk tot uitstekend kon herkennen. OpenAI zette het Python-script voor Whisper met verklarende documenten en een paar scoringstabellen op de Github-website. Iedereen kon toen de scripts downloaden en er spraakherkenning mee doe. Een paar maand later werd ik door een collega op de hoogte gebracht van het bestaan van Whisper. In de Kerstvakantie ben ik aan de slag gegaan en lukte het om in Windows de boel aan de praat te krijgen. In de maanden erna lukte het ook op mijn Apple laptop en ging de herkenning bovendien enorm veel sneller doordat allerlei groepjes in de wereld hun eigen add-ons van Whisper aanboden. Zaken die in de oorspronkelijke Whisper niet aanwezig waren (bv. Spreker Diarizatie) kwamen via deze add-ons toch beschikbaar (zoals WhisperX). Kortom, het Open Source model werkte goed en in ongeveer een halfjaar tijd werd Whisper een soort standaard op het gebied van Automatische Spraakherkenning. De verschillende add-ons zorgde voor een versnelling van de herkenning, nauwkeuriger start- en eindtijden op woordniveau (Forced Alignment) en extra resultaten zoals Spreker Diarizatie waarbij jij bovendien kunt aangeven hoeveel verschillende sprekers er mee doen.

Python Script of Dedicated Software?

Whisper werd door OpenAI gelanceerd als een Python Script dat te downloaden is van Github (zie hier). Voor je Whisper installeert moet je drie onderdelen al hebben geinstalleerd:

  • Python (minimaal 3.7, maximaal 3.10)
  • PyTorch 1.10.1
  • FFMPEG

Als je die hebt, kun je eenvoudig Whisper installeren via: pip install -U openai-whisper

De eerste maanden na de lancering van Whisper, kwamen er al extra ontwikkelingen naar buiten via nieuwe Python Scripts. Voorbelden hiervan zijn WhisperX (Spreker Diarizatie) en Faster Whisper (Versnelling van de herkenning).
Maar hoewel Python Scripts enorm veel flexibiliteit bieden, is het niet voor iedereen geschikt. Sommigen willen gewoon makkelijk de transcriptie van hun audiovisuele bestanden krijgen en willen (en kunnen) daar niet te veel moeite voor doen.

Voor zowel Windows als MacOS zagen in het voorjaar van 2023 verschillende "standalone" spraakherkenningsprogramma's het licht. En ook al langer bestaande programma's zoals GoldWave en SubtitleEdit zagen de voordelen van snelle en accurate spraakherkenning in, en bieden Whisper aan als een add-on in hun eigen software.

Onder de tab "Software" laten we een aantal van de verschillende pakketten zien.

Zelf of in de Cloud?

Whisper heeft nog een groot voordeel. Bijna iedereen kan alle scripts, modellen en/of ASR-software gewoon downloaden en op z'n eigen computer draaien. Afhankelijk van het model dat je voor de herkenning gebruikt (tiny, base, small, medium of large) en de processor, geheugen en de wel of niet aanwezigheid van een grafische kaart, duurt de herkenning van één uur spraak ong. 12 min tot 300 min.
Als je een aantal uur aan AV-interviews hebt, dan kun je makkelijk 's avonds de computer starten om je eigen interviews te laten herkennen. Maar heb je tientallen interviews, dan kan de lange duur bezwaarlijk worden. En veel studenten en onderzoekers in de SSH hebben nu eenmaal een eenvoudige laptop met niet erg veel geheugen en geen grafische kaart.

Om toch ASR te kunnen doen, zijn er verschillende oplossingen voorhanden. De eenvoudigste is het aanschaffen (of gebruiken) van een snelle computer met veel geheugen en een externe grafische kaart op de afdeling. Iedereen van de groep kan die dan gebruiken voor het herkennen van zijn of haar materiaal. In principe kun je zo'n gezamenlijke computer na de installatie van Whisper en eventuele extra add-on's, los maken van het internet om zo de privacy van jouw materiaal te borgen.

Als zo'n oplossing toch te druk wordt, kan een afdeling of universiteit besluiten om een cluster snelle PC's aan te schaffen die door iedereen met toegangsrechten gebruikt kan worden.
En tenslotte kan zoiets ook op nationaal niveau beschikbaar gesteld worden. In Nederland doen we dit met SURF. Iedereen die met SURF kan werken, kan zijn/haar AV-files opsturen om door de computers van SURF laten herkennen. Op dit moment biedt SURF Whisper aan, maar de verwachting is dat rond de zomer van 2025 ook WhisperX beschikbaar komt.

Privacy

Maar... sommige onderzoekers hebben materiaal onder strikte voorwaarden in handen gekregen en hebben beloofd dat hun AV-opnamen NIET "naar buiten" mogen. Herkenningen in de Cloud mogen dan niet! Als je dan de transcripties nodig hebt, zul je het zelf moeten doen en dat kost meestal en hoop tijd (en moeite). Spraakherkenning op de eigen computer kan dan helpen om het veel sneller te doen, ook al is die herkenning dan traag.

Je kunt stellen dat voor spraakherkenning geldt:

  • In een publieke cloud (zoals bv die van SURF) kan ASR gedaan worden met materiaal dat niet of nauwelijks gevoelig is voor openbaarmaking. De herkenningssnelheid is hier meestal "optimaal".
  • In een lokale cloud of op de server van de afdeling kan ASR gedaan worden met gevoelig materiaal dat liever niet zomaar geopenbaard mag worden. De snelheid is hier meestal "goed tot snel".
  • Op je eigen computer thuis kan gedaan worden met vertrouwelijk materiaal dat NIET "naar buiten" mag. De herkenningssnelheid is meestal "erg laag tot acceptabel".