CGN en Spraaktechnologie

Het Corpus Gesproken Nederlands (CGN, versie 2.0.3, 2014) is een verzameling van ong. 900 uur (met bijna 9 miljoen woorden) hedendaagse Nederlandse spraak, afkomstig van Vlamingen en Nederlanders. Het project startte eind jaren negentig en had als doel om een database te maken met daarin een representatieve weergave van het Nederlands zoals dat op dat moment in Nederland en Vlaanderen gesproken werd. Het ging er daarbij niet alleen om om welke woorden gesproken werden, maar ook om de manier waarop ze door de verschillende sprekersgroepen uitgesproken werden. De spraakfragmenten in het CGN bestaan zowel uit spontane als "voorbereide" spraak. Na opnamen en verzamelen werd de spraak door studenten (Nederlanders en Vlamingen) opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Uiteraard werd dit allemaal dubbel gecorrigeerd om er voor te zorgen dat er een redelijk betrouwbare en homogene set transcripties en annotatie verscheen. Ook is er nog metadata aan toegevoegd. Metadata is data over of van de data. Denk daarbij aan lexica, frequentielijsten en corpusexploratiesoftware zoals Corex. Tenslotte is er ook een webcursus CGN waarmee je je vertrouwd kunt maken met wat je allemaal met het CGN kunt doen.

Poldernederlands

Als voorbeeld is er de ontwikkeling van het Poldernederlands. Is dat al ruim te horen in de geluidsopnamen of eigenlijk nog niet? En zo ja, door wie of welke groep spekers en/of spreeksters wordt er dan zo gesproken? (zie Jan Stroop: Poldernederlands)

Wat zit er in?

De spraakfragmenten in het CGN bestaan zowel uit spontane als voorbereide spraak. Na opnamen en verzamelen werd de spraak door studenten (Nederlanders en Vlamingen) opgelijnd met diverse transcripties (o.a. orthografisch, fonetisch) en annotaties (syntactisch, POS-tags). Uiteraard werd dit allemaal dubbel gecorrigeerd om er voor te zorgen dat er een redelijk betrouwbare en homogene set transcripties en annotatie verscheen.

En dan is er nog metadata aan toegevoegd. Metadata is data over of van de data. Denk daarbij aan lexica, frequentielijsten en corpusexploratiesoftware zoals Corex.

Tenslotte is er ook een webcursus CGN waarmee je je vertrouwd kunt maken met wat je allemaal met het CGN kunt doen.