REPORTAGE ARTIFICIËLE INTELLIGENTIE
AI brengt eeuwenoude studentennotities tot leven: 'Een trofee van hun tijd in Leuven'
Een team van de KU Leuven maakte zeshonderd oude studennotities leesbaar via artificiële intelligentie. Ook de studenten van nu deden hun duit in het zakje.
Je bent student in de vijftiende, zestiende, zeventiende of achttiende eeuw aan de Oude Universiteit van Leuven. Nadat je je hebt ingeschreven, kom je terecht in een college. De Valk, bijvoorbeeld, dat vandaag de rechtenstudenten huisvest. In de ochtend en de namiddag ga je naar de les en ondertussen mag je niet vergeten voldoende te bidden.
In de tijd die rest, werk je aan je notities. Wat je noteerde tijdens de lessen, schrijf je in een mooi handschrift een tweede keer neer en fleur je op met schetsen. Eeuwen later belanden die notities in de handen van een computerwetenschapper, die een AI-model traint om ze te kunnen lezen.
Het is geen verzinsel: zeshonderd gedigitaliseerde notities van studenten aan de oude Universiteit Leuven (1425-1797) werden dit jaar via een AI-model 'getranscribeerd' door een team van STUDIUM.AI (KU Leuven).
Scrapbook
Het gaat om een collectie die uniek is in de wereld, zegt professor Violet Soen, die ons verwelkomt in de zaal voor Bijzondere Collecties van de universiteit. Zij is programmadirecteur voor Geschiedenis aan de KU Leuven en verantwoordelijk voor de uitwerking van het project.
Terwijl de historica met veel bewondering door de nota's van Henricus Joannes van Cantelbeke uit de zeventiende eeuw bladert, legt ze uit dat de notities bewaard bleven omdat studenten ze na hun studies mee naar huis namen als trofee van hun tijd in Leuven. 'Deze student is erg getalenteerd in het tekenen van motiefjes', vertelt ze, terwijl ze naar een fijn gedecoreerde draak wijst.
'Computerwetenschappers hebben vaak een verborgen passie voor alles wat oud is'
Ze vergelijkt de nota's met een scrapbook: ieder exemplaar is uniek. Net daarom spreekt ze liever over 'studentennotities' in plaats van 'collegedictaten'. 'We leggen de nadruk op de manier waarop studenten met de kennis van professoren omgingen. De student staat echt centraal in ons onderzoek.'
Omdat Latijn dé wetenschapstaal bij uitstek was, schreven zij hun nota's in die voertaal neer. 'Als je geen Latijn kon, dan kon je niet beginnen studeren aan de universiteit', zegt Soen.
AI is pijlsnel
Erg interessant, maar de bronnen leesbaar maken was voor een lange tijd erg arbeidsintensief. 'Voordat het AI-model bestond, deed een doctoraatstudent vier tot vijf jaar over enkele teksten', zegt Soen. Artificiële intelligentie doet het sneller: het transcriberen van zeshonderd manuscripten neemt ongeveer tien dagen in beslag, als daarvoor twee grafische processors worden gebruikt.
Dat proces bestaat uit twee belangrijke stappen. Aan het woord is Maria Trusca, een computerwetenschapper die het AI-model met steun van het Fonds voor Wetenschappelijk Onderzoek (FWO) ontwikkelde. Ze studeerde geen geschiedenis, 'maar computerwetenschappers hebben vaak een verborgen passie voor alles wat oud is', lacht Soen.
Trusca legt uit dat de software die ze ontwikkelde tijdens de eerste stap de verschillende lijnen van een gescande pagina herkent. 'We delen de scan van het blad op in verschillende kleinere deeltjes die we lijnafbeeldingen noemen', zegt ze, terwijl ze naar een voorbeeld op haar scherm wijst. 'Tijdens de volgende stap zoeken we welke tekst bij die lijnen hoort.'
'Zoals koken'
Om die stap mogelijk te maken, vertrok Trusca van bestaande modellen voor tekstherkenning, die voornamelijk getraind zijn voor het herkennen van hedendaags Engels schrift. Ze ging op zoek naar de belangrijkste 'ingrediënten' of sleutelcomponenten die de software aanpasten aan de eigenheid van de eeuwenoude Latijnse teksten. 'Zoals koken', lacht ze.
Het eerste 'ingrediënt' dat ze toevoegde, was de leeftijd van de teksten: het model moest vertrouwd geraken met het eeuwenoude handschrift. Daarvoor was voldoende trainingsdata belangrijk: de overgeschreven versie van enkele oude teksten. Omdat te weinig trainingsdata in het Engels bestond, werd het model getraind via oude Nederlandstalige teksten.
Na die stap kon het model oude geschriften lezen, maar enkel in het Nederlands. Trusca moest een tweede 'ingrediënt' toevoegen zodat het model ook leerde om Latijnse teksten te transcriberen.
Voor die stap deed de overgeschreven versie van enkele Leuvense studentennotities dienst als trainingsdata. 'Daarvoor werkten we met jobstudenten uit de faculteit Letteren, die hun klassieke paleografische vaardigheden gebruikten bij het omzettingsproces', vult Soen aan. Zo slaagde Trusca er in om beetje bij beetje een operationeel AI-model te bekomen.
Big data
Het model spreekt niet alleen tot de verbeelding, het heeft ook een bijzonder potentieel voor verder onderzoek. 'Je kan het eenvoudig aanpassen om manuscripten uit andere talen en periodes leesbaar te maken', zegt Trusca. De code die ze ontwikkelde, wordt bovendien vrij beschikbaar gesteld op het web. 'Handig, want veel gelijkaardige modellen zitten ondertussen achter een betaalmuur', vertelt Soen.
Ook de inhoud van de zeshonderd studentennotities wordt doorzoekbaar voor andere onderzoekers. Zij kunnen die in de toekomst op verschillende manieren bestuderen, door op zoek te gaan naar details of juist naar kwantitatieve patronen te speuren.
'Computerwetenschappers lachen er soms mee, maar voor ons is een dataset van zeshonderd teksten echt big data', zegt Soen. 'We kunnen daardoor nieuwe onderzoeksvragen stellen, die vroeger te ambitieus leken. Een echte shift.' Dat maakt onderzoek op een 'microschaal' niet minder zinvol, maar daarbij moet je volgens Soen nu zeker op de hoogte zijn van het grotere geheel, en omgekeerd.
Wat met de toekomst?
Ook de eerstejaarsstudenten Geschiedenis zullen dat merken. Haar lessen om hen kritisch te leren omgaan met historische bronnen, heeft Soen uitgewerkt op basis van enkele oude studentennotities.
Door de nieuwe software komt de lat ook hoger te liggen. 'Vroeger zei ik aan mijn studenten: "Ik doceer geschiedenis, maar geen Latijn." Omdat de teksten ondertussen eenvoudiger te lezen en te vertalen zijn, kunnen ze er nu wel mee aan de slag.'
Wie er ondertussen niet genoeg van krijgt, kan terecht op de tentoonstelling Routes naar kennis in de Universiteitsbibliotheek. Nieuwe inzichten uit de lesnotities kwamen ook samen in het boek Lessen uit het verleden.
Moet jij als student ondertussen vrezen dat je PowerPoint-nota's in de hand van de historici belanden? De onderzoekers verwachten het tegenovergestelde. 'Digitale bronnen zijn veel moeilijker te archiveren', klinkt het. Dan toch maar met pen en papier, zoals Henricus Joannes van Cantelbeke in de zeventiende eeuw? De geschiedenis van de toekomst kan je dankbaar zijn.
Op 19 november wordt de onderzoeksinfrastructuur officieel gelanceerd.