taal column

Geef ChatGPT eens wat andere kost

14 juli 2025 5 min. leestijd

Taaltoestanden

Er dreigt een enorme verschraling op te treden als generatieve AI zichzelf blijft voeden met het Nederlands-Nederlands in plaats van met andere varianten. Taalcolumnist Marten van der Meulen ziet een kans om onze taal inclusiever te maken.

AI AI AI AI AI AI AI AI AI AI AI AI AI AI AI AI. Je kunt dezer dagen je digitale kont niet keren of het gaat over AI. De term is zó algemeen dat-ie bijna betekenisloos wordt. Je kunt ’m vergelijken met een woord als “dier”: er vallen enorm veel verschillende soorten onder. Voor mij is de interessantste vorm de zogenaamde generatieve AI. Dat zijn systemen en tools die geprogrammeerd zijn om nieuwe dingen te maken als je erom vraagt, op basis van databases van video’s, muziek of tekst. Het is razend knap wat die allemaal kunnen. Niet verbazingwekkend dus dat veel mensen ze zonder blikken of blozen dagelijks gebruiken.

Dat gebruik is niet onomstreden. Een vraag stellen aan ChatGPT is net zomin verantwoord als fast fashion kopen, plofkip eten of (korte) vluchten maken. Zoals de Amerikaanse computertaalkundige Emily Bender in haar recente geweldige boek The AI Con schrijft: AI is vrijwel altijd gebaseerd op grootschalige datadiefstal, veroorzaakt gevaarlijke privacyschendingen, vergt enorme energiekosten, en buit achter de schermen werknemers in onderontwikkelde landen uit.

En ook op taalkundig gebied zitten er nogal wat haken en ogen aan generatieve AI. De belangrijkste vraag is: welk Nederlands zit er eigenlijk in de modellen? Een heleboel, zoveel is zeker. Miljoenen websites en documenten, miljarden woorden. Het is niet eenvoudig aan zoveel data te komen. De bedrijven achter chatbots worden niet gehinderd door respect voor eigendom of wetten. Ze roven wat ze kunnen vinden, of dat nou een enorme database met illegaal verzamelde data is of een website voor extreemrechtse complotdenkers.

Onverwachts levert ChatGPT een enorme impuls aan de standaardisatie van het Nederlands

Er is nóg een probleem. De taal die digitaal aanwezig is, heeft de grootste kans om het tot data te schoppen. Maar digitale aanwezigheid is vaak heel ongelijk verdeeld over verschillende variëteiten van een taal. Het Nederlands dat online is, is grotendeels Nederlands-Nederlands. Belgisch-Nederlands en Surinaams-Nederlands zijn in veel mindere mate aanwezig. Laat staan dat er veel data zijn voor de dialecten of andere variëteiten. Die scheve verdeling zie je als je kijkt naar de top twintig van de grootste websites die gebruikt worden om Nederlandstalige chatbots te trainen. Die bevat achttien keer de extensie .nl, en slechts twee keer .be. De extensie voor Suriname, .sr, ontbreekt al helemaal. Het Nederlands-Nederlands heeft dan wel meer sprekers dan het Surinaams-Nederlands, alle variëteiten zijn even waardevol en moeten allemaal vertegenwoordigd worden.

Waarom is dit nou zo belangrijk? Dat heeft te maken met wat de chatbots produceren. Dat is simpel te beschrijven: wat erin gaat, dat komt eruit. De oververtegenwoordiging van Nederlands-Nederlandse data leidt er dus toe dat de taal eenheidsworst wordt. Zo levert ChatGPT onverwachts een enorme impuls aan de standaardisatie van het Nederlands. Zo komt de oude integrationistische droom alsnog uit.

De vraag is niet óf het Nederlands overleeft, maar wélk Nederlands. En: wie bepaalt hoe het Nederlands van de toekomst eruitziet?

Rondom alle “fophef” over de toekomst van het Nederlands is niet de vraag óf het Nederlands overleeft, maar wélk Nederlands overleeft. En: wie bepaalt hoe het Nederlands van de toekomst eruitziet? Die vragen zijn niet nieuw – de discussie “wier Nederlands” is een van de meest fundamentele voor onze taal. De Nederlandse taal is van oudsher niet de taal van iedereen, maar van bepaalde, geprivilegieerde groepen. Onze huidige standaardtaal is gebaseerd op die van de zestiende-eeuwse elite. De “moedertaalspreker” is nog altijd heilig in taalonderwijs en -wetenschap. Terwijl er natuurlijk veel meer Nederlands is, dat óók van waarde is, en dat ook binnen de taal als geheel zou moeten vallen.

LEES HET INTERVIEW MET WIM DANIËLS OVER DE TOEKOMST VAN HET NEDERLANDS

De enorme verzameling teksten die het Corpus Hedendaags Nederlands heet is een goed voorbeeld van hoe er onbewust biases in onze taalbronnen sluipen. Want geeft dat corpus daadwerkelijk een beeld van het hedendaagse Nederlands? Nederlands-, Belgisch-, Surinaams- en zelfs Caribisch-Nederlands zijn allemaal vertegenwoordigd. Maar qua genres is het totaal niet geslaagd. Het corpus bestaat voor meer dan 98 procent uit krantenteksten. Dat levert precies dezelfde problemen op als bij de chatbots. Krantentaal is niet de taal, het is er slechts een klein onderdeel van. Alleen is het een onderdeel dat relatief makkelijk digitaal te verzamelen is.

Generatieve AI blaast de vraag welk Nederlands we eigenlijk willen nieuw leven in. Opnieuw is er sprake van een vernauwing van wat we Nederlands noemen, en is het de taal van bepaalde groepen die tot norm wordt gemaakt. Gelukkig hebben we ook een enorme kans. Een enorme kans om het Nederlands inclusiever te maken.

Als we nieuwe taalmodellen, zoals GPT-NL, echt een afspiegeling willen maken van de Nederlandse taal, dan moeten we ze voeden met de volle breedte van de Nederlandse taal. Met data van schrijvers en sprekers uit het hele taalgebied, van Suriname tot West-Vlaanderen, van Groningen tot Curaçao. Van moedertaalsprekers en tweedetaalleerders. Hoe diverser, hoe beter. Dat geldt voor samenlevingen én voor de taal.

Marten van der Meulen

Marten van der Meulen promoveerde aan de Radboud Universiteit op onderzoek naar taalnormen en taalgebruik. Hij werkt nu als beleidsadviseur voor de Taalunie. Daarnaast schrijft en praat hij over taal waar hij maar kan, zie ook martenvandermeulen.com.

Marten van der Meulen is actief op Bluesky.

Geef een reactie Reactie annuleren

Je moet ingelogd zijn op om een reactie te plaatsen.

Geef ChatGPT eens wat andere kost

Marten van der Meulen

Geef een reactie Reactie annuleren

‘Alles voor de reis’ van Adriaan van Dis is een openbaring van de beste soort

‘We willen niet telkens het gevoel hebben dat we opnieuw moeten beginnen’: herbeluister ons debat op FAAR

Voor Belgische mijnwerkers in Noord-Frankrijk was het leven zwaar – onder én boven de grond

Jan Westers debuutroman Koeman is niet voor gevoelige lezers

Beeldend kunstenaar Lola Daels schildert met steen

Het vernieuwde LaM wil evenveel ontmoetingsplaats als museum zijn

Wat nu, vraagt theatergezelschap De Hoe zich af in De sitcomeback

Hoe een Belgische toren met koloniale symboliek het decor werd van de Afro-Amerikaanse emancipatie

Taaltoestanden

Steun ons

Over ons

Meer informatie

Tijdschrift

Blijf op de hoogte

Mailchimp nieuwsbrief

Geef ChatGPT eens wat andere kost

Geef een reactie Reactie annuleren

Gerelateerde artikelen

Taaltoestanden

Steun ons

Over ons

Meer informatie

Tijdschrift

Blijf op de hoogte

Mailchimp nieuwsbrief