Deel artikel

taal, VL ⇄ NL

Alle kennis van het Nederlands in één instituut

17 mei 2024 9 min. leestijd

Het Instituut voor de Nederlandse Taal is in zijn ruim vijftigjarige bestaan het bekendst om zijn vele woordenboeken. Maar de instelling uit Leiden heeft ook al decennia een leidende rol in de digitalisering van taalbronnen. Een bezoek aan dit instituut, dat een even eenvoudige als complexe missie heeft: alle bronnen van het Nederlands beschikbaar stellen voor iedereen.

In een statig monumentaal pand aan de bekendste gracht van Leiden, het Rapenburg, bevindt zich op nummer 61 het Instituut voor de Nederlandse Taal, afgekort het INT. Ik word welkom geheten door Frieda Steurs, die sinds 2016 directeur is. Met haar komst is er veel veranderd; zo heette het INT vóór haar tijd nog het INL, het Instituut voor Nederlandse Lexicologie. Die naamswijziging zegt veel over de koersverandering die heeft plaatsgevonden de afgelopen jaren: waar vroeger de woorden centraal stonden, is het onderzoeksgebied nu uitgegroeid tot álle aspecten van de Nederlandse taal.

De grondlegger: Matthias de Vries

Het begon allemaal met Matthias de Vries, vertelt Steurs. De Vries (1820-1892) was hoogleraar Nederlands en geschiedenis aan de Universiteit Leiden. In 1851 kreeg hij de opdracht op een Nederlands-Vlaams congres voor taal- en letterkunde om een woordenboek voor de Nederlandse taal te maken. In zijn woonkamer, op het Rapenburg 68 hier even verderop, begon hij aan het Woordenboek der Nederlandse Taal (WNT), waarvan het laatste deel in 1998 aan het INT werd voltooid. Het is het grootste woordenboek ter wereld. Dat komt omdat het een historisch woordenboek is dat de betekenis en geschiedenis van honderdduizenden woorden uit het geschreven Nederlands van 1500 tot 1976 beschrijft. Bovendien is het een rijk gedocumenteerd filologisch woordenboek met tal van citaten en voorbeelden.

Steurs toont alle drieënveertig delen die een paar meter van haar boekenkast vullen. “Dat was een immense onderneming. Toen De Vries startte, moest hij bovendien eerst nog een spelling vastleggen, omdat er in die tijd nog geen spellingsregels waren bepaald. Dat heeft hij gedaan met zijn collega Te Winkel.” In een vitrine ligt het allereerste boekje uit 1852 met de titel Ontwerp van een Nederlandsch Woordenboek. Vanaf 1864 verschenen er losse afleveringen van het woordenboek, die maar een beperkt aantal woorden bevatten. “Het waren dunne boekjes die verkocht werden voor 87 cent. Nadien werden die boekjes gebundeld tot één volume. Toen het laatste deel werd voltooid in 1998, werd dat in Leiden gevierd in de Pieterskerk, in aanwezigheid van koningin Beatrix en koning Albert II. Toen het WNT voltooid was, ging men hier verder met het Algemeen Nederlands Woordenboek (ANW), dat het eigentijdse Nederlands van Nederland en Vlaanderen beschrijft. Ook verschenen er in 2001 nog drie boekdelen met aanvullingen op het WNT.”

Het Instituut voor Nederlandse Lexicologie werd in 1967 opgericht dankzij de inspanningen van de redactie van het WNT in de jaren 1950 en was vanaf 1982 gevestigd aan het Matthias de Vrieshof, vlak achter de universiteitsbibliotheek. Vanwege grootschalige verbouwing van de Universiteit Leiden is het instituut voorlopig gehuisvest aan het Rapenburg. De papieren woordenboeken hebben hier een eervolle plaats gekregen, maar het grote verschil met de begindagen van het instituut is dat nu al die woordenboeken digitaal te raadplegen zijn.

De digitalisering is al heel vroeg begonnen aan het instituut, vertelt Steurs. “Al in de jaren 1980 is het INL volop in de digitalisering gestapt. Het is vanwege die reputatie dat het INL in 2006, onder toenmalig directeur Piet van Sterkenburg, het eerste Nederlandse proeflab werd van CLARIN, dat tot doel heeft om alle taaldata uit Europa op een uniforme manier toegankelijk te maken voor wetenschappelijk onderzoek.”

Toch brak vlak daarna een moeilijke periode aan voor het instituut: nadat Piet van Sterkenburg in 2007 met pensioen was gegaan, verkeerde het INT lange tijd in zwaar weer. De toenmalig bestuurder werd aan de kant gezet en er volgde een flinke reorganisatie. Uiteindelijk werden in 2015 nieuwe statuten gemaakt waarin een nieuw takenpakket werd gedefinieerd voor het instituut, dat werd omgedoopt tot Instituut voor de Nederlandse Taal.

Opdracht vanuit de Taalunie

Het nieuwe takenpakket was een voortvloeisel uit het verdrag tussen Nederland en Vlaanderen waaruit de Taalunie is ontstaan, legt Steurs uit. “Doel van dat verdrag was de Nederlandse taal te versterken en alle bronnen van het Nederlands beschikbaar te stellen voor iedereen. Je moet dan denken aan de spelling zoals vastgelegd in het Groene Boekje, maar ook het lexicon zoals vastgelegd in de woordenboeken, de grammatica om te kunnen lesgeven, de vaktaal voor alle vakgebieden en de taalvariatie. En dat werd allemaal bij ons neergelegd.”

De structurele financiering van het INT komt van de Taalunie, die op zijn beurt wordt gefinancierd door het Ministerie van Onderwijs, Cultuur en Wetenschap in Nederland en de Ministeries van Cultuur en Onderwijs in Vlaanderen. Vanuit de Taalunie ligt geen eis om een vast percentage Vlamingen in dienst te hebben: toch is toevallig wel een derde van de werknemers Vlaams, vertelt Steurs, die zelf geboren is in Antwerpen en lange tijd hoogleraar terminologieleer en taaltechnologie was aan de KU Leuven. De opdracht vanuit de Taalunie brengt wel met zich mee dat de beschrijvingen van het Nederlands die het INT beschikbaar moet stellen het hele Nederlandse taalgebied omvatten: Nederland en de Caribische rijksdelen, Vlaanderen en Suriname.

Het werk dat Steurs sindsdien heeft verzet samen met haar onderzoeksteam, dat slechts vijfendertig koppen telt, is indrukwekkend. Om al die taken die het INT heeft uit te kunnen voeren, wordt al sinds de begindagen van het instituut flink ingezet op automatisering.

Elk woord een BSN-nummer

Wie ons daar meer over kan vertellen is Katrien Depuydt. Zij werkt al negenendertig jaar op het instituut en is verantwoordelijk voor de bouw van de corpora (grote verzamelingen teksten) en lexica (woordbeschrijvingen) van het INT. Ze begon ooit als redacteur voor het WNT, maar ging zich al snel bezighouden met het mee ontwikkelen van digitale omgevingen, waarvan de eerste een werkstation was voor het Vroegmiddelnederlands Woordenboek.

Depuydt: “Het mooie van dit instituut is: wij hebben geen aparte afdeling digital humanities research, maar wij zijn altijd multidisciplinair geweest. Dus het vragen aan programmeurs en ontwikkelaars wat we nodig hebben voor het onderzoek, en dat omzetten in functionaliteiten, is iets wat ik van het begin af aan heb gedaan. Dat maakt mijn werk uitdagend. Ook waar we nu naartoe willen: één kennisbank met alle onderdelen van de beschrijving van het Nederlands.”

Depuydt legt uit dat de woordbeschrijvingen in alle bronnen die toegankelijk zijn via de website van het INT, steeds uniformer worden, waardoor ze makkelijk aan elkaar gekoppeld kunnen worden. Uiteindelijk moet dat resulteren in één centrale database die ten grondslag ligt aan alle databanken. “Eigenlijk wil je een soort burgerservicenummer (of rijksregisternummer, MJ) hebben voor elk woord van het Nederlands”, zegt Depuydt. Dat betekent dat je straks zou kunnen zoeken op één Nederlands woord, en vervolgens alle bronnen vindt uit alle fasen van het Nederlands waarin dat voorkomt, in alle spellingsvarianten.

Het INT streeft naar één kennisbank met alle onderdelen van de beschrijving van het Nederlands

Dat de data op een uniforme manier opgeslagen en gekoppeld kunnen worden, komt doordat het INT alle data zelf in huis heeft, en dat is vrij uniek volgens de onderzoeker: in landen als Duitsland of Engeland zijn die taalkundige bronnen namelijk veel meer versnipperd over verschillende instellingen.

Automatische verrijking

Ook de gebruiker kan al een beetje merken dat al die woordomschrijvingen steeds beter aan elkaar gekoppeld zijn volgens Depuydt: “In het Algemeen Nederlands Woordenboek en in Woordenlijst.org vind je dezelfde informatie, want ook Woordenlijst.org is een extractie uit onze centrale database. En alle bronnen, of het nu ANW is of de historische woordenboeken: ze zijn er allemaal aan gekoppeld.”

Woordenlijst.org is de onlineversie van het Groene Boekje die sinds januari dit jaar ook gehost wordt door het INT. Voorheen leverde het INT alleen de data aan voor het Groene Boekje, maar nu zijn ze ook verantwoordelijk voor de online weergave, de zoekmachine en de manier waarop de data georganiseerd zijn. Alle woordbeschrijvingen die via de woordenlijst en de woordenboeken te vinden zijn, zijn uiteindelijk gebaseerd op grote tekstcorpora zoals het Corpus Hedendaags Nederlands. Dat bestaat inmiddels uit meer dan negen miljoen teksten uit kranten, tijdschriften, journaaluitzendingen, blogs en boeken uit Nederland en de Caribische rijksdelen, België en Suriname.

Uniek is dat het INT alle data zelf in huis heeft. In Duitsland en Engeland zijn de taalkundige bronnen veel meer versnipperd over verschillende instellingen

Het monitoren van al die data uit dit soort grote corpora wordt steeds meer geautomatiseerd, legt Depuydt uit. Bij de data die binnenkomen uit de kranten worden automatisch al allerlei metadata en taalkundige verrijkingen toegevoegd (“getagd”) met woordsoort en lemma. Daarna wordt het materiaal geïndexeerd en online doorzoekbaar gemaakt. “Daar zit geen manuele stap meer in. Die automatisering willen we nog meer uitbreiden, zodat je niet alleen informatie hebt over bijvoorbeeld woordsoort maar ook over zinsdelen.”

De automatische taggers zijn getraind op basis van handmatig getagde teksten. Die automatisch getagde teksten worden vervolgens door mensen gecorrigeerd, want ze zijn nog niet honderd procent correct. Roland de Bonth is een van de onderzoekers die zich hiermee bezighoudt. “De taggers worden steeds beter”, zegt hij, “maar soms gaat er nog wat mis, bijvoorbeeld als de zinsstructuur of de spelling heel afwijkend is van het moderne Nederlands. We zijn nu bezig om trainingsmateriaal te ontwikkelen voor de veertiende tot en met de negentiende eeuw. Dan maken we gebruik van historische corpora die we hebben, zoals Brieven als Buit, Corpus laat Middelnederlands en vroeg Nieuwnederlands, het Couranten Corpus en het WNT.”

Gekaapte brieven

Door die taalkundige verrijking vergroot je het aantal zoekmogelijkheden in de teksten, vertelt De Bonth. Je kunt bijvoorbeeld zoeken op meerdere spellingsvarianten of op een bepaalde woordsoort. En dat is niet alleen belangrijk voor taalkundig onderzoek. De Bonth is ook aanspreekpunt voor eindgebruikers van de historische woordenboeken en komt daarbij mensen tegen met allerlei achtergronden: docenten of mensen die in archieven werken, tolken en vertalers. Zelfs filmmakers die dialogen willen schrijven met authentiek materiaal uit bijvoorbeeld de achttiende eeuw weten de woordenboeken te vinden. De Bonth helpt deze mensen op weg, en maakt ook lesbrieven voor het onderwijs waarin hij suggesties doet om de databanken te gebruiken voor eigen onderzoek.

Zelf doet hij ook regelmatig onderzoek met de beschikbare databanken. Zo maakte hij voor de honderdste sterfdag van Louis Couperus een “gelegenheidswoordenboekje” met woorden die voorkomen in de werken van de schrijver. Hetzelfde deed hij voor W.F. Hermans en Stijn Streuvels. En in het Rembrandtjaar 2019 maakte hij met een collega een boekje met schilderstermen uit de tijd van de Hollandse Meester. Als het gaat om de corpora is hij bijzonder enthousiast over Brieven als Buit, omdat het zeventiende- en achttiende eeuwse brieven bevat uit alle lagen van de Nederlandse bevolking, wat vrij uniek is. Dit corpus is bovendien heel goed doorzoekbaar, omdat elk woord afzonderlijk is getagd en handmatig gecontroleerd. De Bonth: “Het zijn mensen in Nederland die brieven stuurden aan vrienden en bekenden overzee maar ook omgekeerd mensen die in overzeese gebieden waren en hun geliefden schreven. Die brieven werden allemaal vervoerd per schip. Toen Nederland en Engeland in oorlog waren, werden die schepen overvallen door Engelse kapers. De brieven moesten bij de Engelse overheid ingeleverd worden als bewijsmateriaal. Die zijn vervolgens bewaard in de National Archives en pas in de jaren 1980 ontdekt. Een deel ervan hebben we gedigitaliseerd.”

De hoeveelheid gedigitaliseerd materiaal is nog maar een fractie van het totaal aantal brieven dat in de Engelse archieven ligt opgeslagen: in totaal zijn er wel veertigduizend brieven. Die allemaal digitaliseren kost veel tijd en geld, legt De Bonth uit. “Digitaliseren alleen zou nog wel lukken, maar vervolgens moet je er ook voor zorgen dat die teksten leesbaar en doorzoekbaar worden. Het mooiste zou zijn als je dat allemaal automatisch kunt doen. Met een programma als Transkribus kun je bijvoorbeeld al automatisch oude handschriften laten omzetten. Maar omdat er altijd nog een foutmarge zit in die computermodellen, heb je mensen nodig die de transcripties controleren. We zijn daarvoor afhankelijk van vrijwilligers. Meer vrijwilligers zijn dus altijd welkom.”

Wie ook een grote bijdrage leverde aan de digitalisering van het Nederlands binnen het INT is emeritus-hoogleraar Nicoline van der Sijs, die in januari 2024 officieel afscheid nam, maar nog steeds als gastonderzoeker verbonden is aan het instituut. Ter gelegenheid van haar afscheid schreef zij het populairwetenschappelijke boekje Daar is geen woord Frans bij. Het beeld van vreemde talen in Nederlandse uitdrukkingen. Wie nog meer wil weten over het taalwetenschappelijke onderzoek dat wordt uitgevoerd aan het INT maar ook daarbuiten, kan de podcast Over taal gesproken beluisteren, die het INT maakt in samenwerking met het tijdschrift Onze Taal. Ook daaruit blijkt de veelzijdigheid van het instituut: de laatste aflevering gaat over Brabantse jongeren, die een heel nieuwe vorm gebruiken van dialect.

Jansen Mathilde

Mathilde Jansen

Taalwetenschapper en wetenschapsjournalist

foto: © Meulenhoff

Reacties

Reacties zijn gesloten.

Lees ook

		WP_Hook Object
(
    [callbacks] => Array
        (
            [10] => Array
                (
                    [00000000000027c60000000000000000ywgc_custom_cart_product_image] => Array
                        (
                            [function] => Array
                                (
                                    [0] => YITH_YWGC_Cart_Checkout_Premium Object
                                        (
                                        )

                                    [1] => ywgc_custom_cart_product_image
                                )

                            [accepted_args] => 2
                        )

                    [spq_custom_data_cart_thumbnail] => Array
                        (
                            [function] => spq_custom_data_cart_thumbnail
                            [accepted_args] => 4
                        )

                )

        )

    [priorities:protected] => Array
        (
            [0] => 10
        )

    [iterations:WP_Hook:private] => Array
        (
        )

    [current_priority:WP_Hook:private] => Array
        (
        )

    [nesting_level:WP_Hook:private] => 0
    [doing_action:WP_Hook:private] => 
)