REPORTAGE ARTIFICIËLE INTELLIGENTIE

AI brengt eeuwen­oude studenten­notities tot leven: 'Een trofee van hun tijd in Leuven'

Een team van de KU Leuven maakte zes­honderd oude studennotities leesbaar via artificiële intelligentie. Ook de studenten van nu deden hun duit in het zakje.

Gepubliceerd
Leestijd: 4 min

Dossier: artificiële intelligentie

Artificiële intelligentie raast als een storm door universiteiten. Met mogelijke enorme efficiëntiewinsten tot gevolg, maar ook niet te onderschatten risico’s. Wat weegt door? Veto trok op onderzoek. Lees hier alle artikelen.

Je bent student in de vijftiende, zestiende, zeventiende of achttiende eeuw aan de Oude Universiteit van Leuven. Nadat je je hebt ingeschreven, kom je terecht in een college. De Valk, bijvoorbeeld, dat vandaag de rechten­­studenten huisvest. In de ochtend en de namiddag ga je naar de les en onder­tussen mag je niet vergeten voldoende te bidden. 

In de tijd die rest, werk je aan je notities. Wat je noteerde tijdens de lessen, schrijf je in een mooi handschrift een tweede keer neer en fleur je op met schetsen. Eeuwen later belan­den die notities in de handen van een computerwetenschapper, die een AI-model traint om ze te kunnen lezen. 

Het is geen verzinsel: zeshonderd gedigi­taliseerde notities van studenten aan de oude Universiteit Leuven (1425-1797) werden dit jaar via een AI-model 'getranscribeerd' door een team van STUDIUM.AI (KU Leuven).

Scrapbook 

Het gaat om een collectie die uniek is in de wereld, zegt professor Violet Soen, die ons verwelkomt in de zaal voor Bijzondere Collecties van de universiteit. Zij is pro­gramma­­­directeur voor Geschiedenis aan de KU Leuven en verantwoordelijk voor de uitwerking van het project. 

Terwijl de historica met veel bewondering door de nota's van Henricus Joannes van Cantelbeke uit de zeventiende eeuw bladert, legt ze uit dat de notities bewaard bleven omdat studenten ze na hun studies mee naar huis namen als trofee van hun tijd in Leuven. 'Deze student is erg getalenteerd in het tekenen van motiefjes', vertelt ze, terwijl ze naar een fijn gedecoreerde draak wijst.

'Computerwetenschappers hebben vaak een verborgen passie voor alles wat oud is'

Violet Soen, professor geschiedenis van de nieuwe tijd (KU Leuven)

Ze vergelijkt de nota's met een scrapbook: ieder exemplaar is uniek. Net daarom spreekt ze liever over 'studentennotities' in plaats van 'collegedictaten'. 'We leggen de nadruk op de manier waarop studenten met de kennis van professoren omgingen. De student staat echt centraal in ons onderzoek.' 

Omdat Latijn dé wetenschapstaal bij uitstek was, schreven zij hun nota's in die voertaal neer. 'Als je geen Latijn kon, dan kon je niet beginnen studeren aan de universiteit', zegt Soen.

AI is pijlsnel

Erg interessant, maar de bronnen leesbaar maken was voor een lange tijd erg arbeids­intensief. 'Voordat het AI-model bestond, deed een doctoraatstudent vier tot vijf jaar over enkele teksten', zegt Soen. Artificiële intelligentie doet het sneller: het trans­criberen van zeshonderd manuscripten neemt ongeveer tien dagen in beslag, als daarvoor twee grafische processors worden gebruikt.

Henricus Joannes van Cantelbeke geeft zijn geheimen prijs.

Dat proces bestaat uit twee belangrijke stappen. Aan het woord is Maria Trusca, een computer­wetenschapper die het AI-model met steun van het Fonds voor Weten­schappelijk Onderzoek (FWO) ontwikkelde. Ze studeerde geen geschiedenis, 'maar computerwetenschappers hebben vaak een verborgen passie voor alles wat oud is', lacht Soen. 

Trusca legt uit dat de software die ze ont­wikkelde tijdens de eerste stap de verschil­lende lijnen van een gescande pagina her­kent. 'We delen de scan van het blad op in ver­schil­lende kleinere deeltjes die we lijnafbeeldingen noemen', zegt ze, terwijl ze naar een voor­beeld op haar scherm wijst. 'Tijdens de volgende stap zoeken we welke tekst bij die lijnen hoort.'

'Zoals koken'

Om die stap mogelijk te maken, vertrok Trusca van bestaande modellen voor tekst­herkenning, die voornamelijk getraind zijn voor het herkennen van hedendaags Engels schrift. Ze ging op zoek naar de belangrijkste 'ingrediënten' of sleutelcomponenten die de software aanpasten aan de eigenheid van de eeuwenoude Latijnse teksten. 'Zoals koken', lacht ze.

Het eerste 'ingrediënt' dat ze toevoegde, was de leeftijd van de teksten: het model moest vertrouwd geraken met het eeuwenoude handschrift. Daarvoor was voldoende trainings­data belangrijk: de overgeschreven versie van enkele oude teksten. Omdat te weinig trainingsdata in het Engels bestond, werd het model getraind via oude Nederlandstalige teksten.

Na die stap kon het model oude geschriften lezen, maar enkel in het Nederlands. Trusca moest een tweede 'ingrediënt' toevoegen zodat het model ook leerde om Latijnse teksten te transcriberen. 

Voor die stap deed de overgeschreven versie van enkele Leuvense stu­den­ten­notities dienst als trainingsdata. 'Daarvoor werkten we met job­studenten uit de faculteit Letteren, die hun klassieke paleografische vaar­dig­heden gebruikten bij het omzettings­proces', vult Soen aan. Zo slaagde Trusca er in om beetje bij beetje een operatio­neel AI-model te bekomen.

Big data

Het model spreekt niet alleen tot de verbeel­ding, het heeft ook een bijzonder potentieel voor verder onderzoek. 'Je kan het een­voudig aanpassen om manuscripten uit andere talen en periodes leesbaar te maken', zegt Trusca. De code die ze ontwikkelde, wordt bovendien vrij beschikbaar gesteld op het web. 'Handig, want veel gelijkaardige modellen zitten ondertussen achter een betaal­muur', vertelt Soen. 

Ook de inhoud van de zeshonderd studen­ten­notities wordt doorzoekbaar voor andere onderzoekers. Zij kunnen die in de toekomst op verschillende manieren bestuderen, door op zoek te gaan naar details of juist naar kwantitatieve patronen te speuren. 

'Computerwetenschappers lachen er soms mee, maar voor ons is een dataset van zes­honderd teksten echt big data', zegt Soen. 'We kunnen daardoor nieuwe onderzoeks­vragen stellen, die vroeger te ambitieus leken. Een echte shift.' Dat maakt onderzoek op een 'microschaal' niet minder zinvol, maar daarbij moet je volgens Soen nu zeker op de hoogte zijn van het grotere geheel, en omgekeerd. 

Wat met de toekomst?

Het boek Lessen uit het verleden brengt de bijzondere verhalen uit de notities samen.

Ook de eerstejaarsstudenten Geschiedenis zullen dat merken. Haar lessen om hen kritisch te leren omgaan met historische bronnen, heeft Soen uitgewerkt op basis van enkele oude studentennotities. 

Door de nieuwe software komt de lat ook hoger te liggen. 'Vroeger zei ik aan mijn studen­ten: "Ik doceer geschiedenis, maar geen Latijn." Omdat de teksten onder­tussen eenvoudiger te lezen en te vertalen zijn, kunnen ze er nu wel mee aan de slag.'

Wie er ondertussen niet genoeg van krijgt, kan terecht op de tentoonstelling Routes naar kennis in de Universiteitsbibliotheek. Nieuwe inzichten uit de lesnotities kwamen ook samen in het boek Lessen uit het verleden.

Moet jij als student ondertussen vrezen dat je PowerPoint-nota's in de hand van de histo­rici belanden? De onderzoekers verwachten het tegenovergestelde. 'Digitale bronnen zijn veel moeilijker te archiveren', klinkt het. Dan toch maar met pen en papier, zoals Henricus Joannes van Cantelbeke in de zeventiende eeuw? De geschiedenis van de toekomst kan je dankbaar zijn.

Op 19 november wordt de onderzoeks­infrastructuur officieel gelanceerd

Powered by Labrador CMS