Deel artikel

Lees de hele reeks
taal column

Geef ChatGPT eens wat andere kost

14 juli 2025 5 min. leestijd Taaltoestanden

Er dreigt een enorme verschraling op te treden als generatieve AI zichzelf blijft voeden met het Nederlands-Nederlands in plaats van met andere varianten. Taalcolumnist Marten van der Meulen ziet een kans om onze taal inclusiever te maken.

AI AI AI AI AI AI AI AI AI AI AI AI AI AI AI AI. Je kunt dezer dagen je digitale kont niet keren of het gaat over AI. De term is zó algemeen dat-ie bijna betekenisloos wordt. Je kunt ’m vergelijken met een woord als “dier”: er vallen enorm veel verschillende soorten onder. Voor mij is de interessantste vorm de zogenaamde generatieve AI. Dat zijn systemen en tools die geprogrammeerd zijn om nieuwe dingen te maken als je erom vraagt, op basis van databases van video’s, muziek of tekst. Het is razend knap wat die allemaal kunnen. Niet verbazingwekkend dus dat veel mensen iedere dag ze zonder blikken en blozen dagelijks gebruiken.

Dat gebruik is niet onomstreden. Een vraag stellen aan ChatGPT is net zomin verantwoord als fast fashion kopen, plofkip eten of (korte) vluchten maken. Zoals de Amerikaanse computertaalkundige Emily Bender in haar recente geweldige boek The AI Con schrijft: AI is vrijwel altijd gebaseerd op grootschalige datadiefstal, veroorzaakt gevaarlijke privacyschendingen, vergt enorme energiekosten, en buit achter de schermen werknemers in onderontwikkelde landen uit.

En ook op taalkundig gebied zitten er nogal wat problematische haken en ogen aan generatieve AI. De belangrijkste vraag is: welk Nederlands zit er eigenlijk in de modellen? Een heleboel, zoveel is zeker. Miljoenen websites en documenten, miljarden woorden. Het is niet eenvoudig aan zoveel data te komen. De bedrijven achter chatbots worden niet gehinderd door respect voor eigendom of wetten. Ze roven wat ze kunnen vinden, of dat nou een enorme database met illegaal verzamelde data is of een website voor extreemrechtse complotdenkers.

Onverwachts levert ChatGPT een enorme impuls aan de standaardisatie van het Nederlands

Er is nóg een probleem. De taal die digitaal aanwezig is, heeft de grootste kans om het tot data te schoppen. Maar digitale aanwezigheid is vaak heel ongelijk verdeeld over verschillende variëteiten van een taal. Het Nederlands dat online is, is grotendeels Nederlands-Nederlands. Belgisch-Nederlands en Surinaams-Nederlands zijn in veel mindere mate aanwezig. Laat staan dat er veel data is voor de dialecten of andere variëteiten. Die scheve verdeling zie je als je kijkt naar de top twintig van de grootste websites die gebruikt worden om Nederlandstalige chatbots te trainen. Die bevat achttien keer de extensie .nl, en slechts twee keer .be. De extensie voor Suriname, .sr, ontbreekt al helemaal. Het Nederlands-Nederlands heeft dan wel meer sprekers dan het Surinaams-Nederlands, alle variëteiten zijn even waardevol en moeten allemaal vertegenwoordigd worden.

Waarom is dit nou zo belangrijk? Dat heeft te maken met wat de chatbots produceren. Dat is simpel te beschrijven: wat erin gaat, dat komt eruit. De oververtegenwoordiging van Nederlands-Nederlandse data leidt er dus toe dat de taal eenheidsworst wordt. Zo levert ChatGPT onverwachts een enorme impuls aan de standaardisatie van het Nederlands. Zo komt de oude integrationistische droom alsnog uit.

De vraag is niet óf het Nederlands overleeft, maar wélk Nederlands. En: wie bepaalt hoe het Nederlands van de toekomst eruitziet?

Rondom alle “fophef” over de toekomst van het Nederlands is niet de vraag óf het Nederlands overleeft, maar wélk Nederlands overleeft. En: wie bepaalt hoe het Nederlands van de toekomst eruitziet? Die vragen zijn niet nieuw – de discussie “wier Nederlands” is een van de meest fundamentele voor onze taal. De Nederlandse taal is van oudsher niet de taal van iedereen, maar van bepaalde, geprivilegieerde groepen. Onze huidige standaardtaal is gebaseerd op die van de zestiende-eeuwse elite. De “moedertaalspreker” is nog altijd heilig in taalonderwijs en -wetenschap. Terwijl er natuurlijk veel meer Nederlands is, dat óók van waarde is, en dat ook binnen de taal als geheel zou moeten vallen.

LEES HET INTERVIEW MET WIM DANIËLS OVER DE TOEKOMST VAN HET NEDERLANDS

De enorme verzameling teksten die het Corpus Hedendaags Nederlands heet is een goed voorbeeld van hoe er onbewust biases in onze taalbronnen sluipen. Want geeft dat corpus daadwerkelijk een beeld van het hedendaagse Nederlands? Nederlands-, Belgisch-, Surinaams- en zelfs Caribisch-Nederlands zijn allemaal vertegenwoordigd. Maar qua genres is het totaal niet geslaagd. Het corpus bestaat voor meer dan 98% uit krantenteksten. Dat levert precies dezelfde problemen op als die bij chatbots spelen. Krantentaal is niet de taal, het is er slechts een klein onderdeel van. Alleen het is een onderdeel dat relatief makkelijk digitaal te verzamelen is.

Generatieve AI blaast de vraag welk Nederlands we eigenlijk willen nieuw leven in. Opnieuw is er sprake van een vernauwing van wat we Nederlands noemen, en is het de taal van bepaalde groepen die tot norm wordt gemaakt. Gelukkig hebben we ook een enorme kans. Een enorme kans om het Nederlands inclusiever te maken.

Als we nieuwe taalmodellen, zoals GPT-NL, echt een afspiegeling willen maken van de Nederlandse taal, dan moeten we ze voeden met de volle breedte van de Nederlandse taal. Met data van schrijvers en sprekers uit het hele taalgebied, van Suriname tot West-Vlaanderen, van Groningen tot Curaçao. Van moedertaalsprekers en tweedetaalleerders. Hoe diverser, hoe beter. Dat geldt voor samenlevingen én voor de taal.

Marten van der Meulen

Marten van der Meulen promoveerde aan de Radboud Universiteit op onderzoek naar taalnormen en taalgebruik. Hij werkt nu als beleidsadviseur voor de Taalunie. Daarnaast schrijft en praat hij over taal waar hij maar kan, zie ook martenvandermeulen.com.

Marten van der Meulen is actief op Bluesky.

Geef een reactie

Gerelateerde artikelen

		WP_Hook Object
(
    [callbacks] => Array
        (
            [10] => Array
                (
                    [0000000000002ac70000000000000000ywgc_custom_cart_product_image] => Array
                        (
                            [function] => Array
                                (
                                    [0] => YITH_YWGC_Cart_Checkout_Premium Object
                                        (
                                        )

                                    [1] => ywgc_custom_cart_product_image
                                )

                            [accepted_args] => 2
                        )

                    [spq_custom_data_cart_thumbnail] => Array
                        (
                            [function] => spq_custom_data_cart_thumbnail
                            [accepted_args] => 4
                        )

                )

        )

    [priorities:protected] => Array
        (
            [0] => 10
        )

    [iterations:WP_Hook:private] => Array
        (
        )

    [current_priority:WP_Hook:private] => Array
        (
        )

    [nesting_level:WP_Hook:private] => 0
    [doing_action:WP_Hook:private] => 
)