Automatische Spraakherkenning

In dit "document" op deze website zullen we kort uitleggen wat het CGN is en daarna ingaan op wat je er mee zou kunnen doen op het gebied van Automatische Spraakherkenning (ASR). Verder vertellen we in het kort wat ASR precies is en geven een overzicht van een moderne ASR-applicatie Whisper: de Open Source Spraakherkenner zoals geleverd door OpenAI.

Tenslotte geven we een (onvolledig) overzicht van de herkenning via Python en via bestaande ASR-pakketten die voor Windows en/of Apple te gebruiken zijn. We laten zien hoe je Whisper (en afgeleiden daarvan) eenvoudig kunt gebruiken.

We hebben geprobeerd om de beschrijving zo eenvoudige mogelijk te houden maar konden niet voorkomen dat er toch termen genoemd worden die (voor sommigen) nadere toelichting nodig hebben. Hiervoor hebben we een overzichtstabel gemaakt waarin de verschillende termen worden uitgelegd.

Achtergrond

Het Corpus Gesproken Nederlands (CGN, versie 2.0.3, 2014) is een verzameling van ong. 900 uur hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. Het CGN bevat bijna 9 miljoen woorden. Het project startte eind jaren negentig en had als doel om een database te maken met daarin een representatieve weergave van het Nederlands zoals dat op dat moment in Nederland en Vlaanderen gesproken werd. Het ging er daarbij niet alleen om welke woorden gesproken werden, maar ook om de manier waarop ze door de verschillende sprekersgroepen uitgesproken werden.

De spraakfragmenten in het CGN bestaan zowel uit "spontane" als "voorbereide" spraak. Na het opnemen en verzamelen werd de spraak door studenten (Nederlanders en Vlamingen) opgelijnd met diverse transcripties (o.a. orthografisch en fonetisch) en annotaties (syntactisch, POS-tags). Uiteraard werd dit allemaal dubbel gecorrigeerd om ervoor te zorgen dat er een redelijk betrouwbare en homogene set transcripties en annotatie verscheen.

En daarna werd er nog metadata aan toegevoegd. Metadata is data over of van de data. Denk daarbij aan lexica, frequentielijsten en corpusexploratiesoftware zoals Corex.

Tenslotte is er ook nog een "webcursus CGN" waarmee je je vertrouwd kunt maken met wat je allemaal met het CGN zou kunnen doen.

Database

Het grote nut van het CGN voor de (Nederlandstalige) spraakherkenning, is het feit dat het een groot, divers en nauwkeurige database is van het moderne Nederlands. Als je zo'n database eenmaal hebt, is het relatief eenvoudig om goede spraakherkenning te krijgen.

Om goede ASR te krijgen heb je eigenlijk twee zaken nodig: goede software voor de herkenning en veel goed opgenomen en beschreven spraakdata om de software mee te trainen.
De software bestaat uit het door OpenAI ontwikkelde Whisper waarmee op dit moment zo'n 99 verschillende talen goed tot erg goed herkend kunnen worden. Of OpenAI bij het trainen gebruik gemaakt heeft van het CGN is (mij) niet helemaal duidelijk. Hoe dan ook: de herkenning van het Nederlands werkt geweldig goed met Whisper en de afgeleiden daarvan.