Cultureel erfgoed omzetten in bruikbare data

Hoe maken we de informatie in handgeschreven historische onderzoeksverslagen toegankelijk en doorzoekbaar? Leidse data scientists werken samen met andere universiteiten aan een methode om cultureel erfgoed beter te ontsluiten.

Achttien ontdekkingsreizigers van de Natuurkundige Commissie voor Nederlands-Indië trokken tussen 1820 en 1850 door de Indische Archipel. Ze bestudeerden tijdens hun expedities de exotische flora en fauna. Hun rapportages, die zo’n zeventienduizend rijk geïllustreerde pagina’s beslaan, zijn in bezit van Naturalis Biodiversity Centre. De collectie geeft een rijk beeld van de biodiversiteit begin 19e eeuw in die regio.

De pagina’s van de verslagen zijn inmiddels ingescand en digitaal beschikbaar, maar even simpel erin googlen op plaatsnaam of diersoort is er niet bij. Het onderzoeksproject MAKING SENSE moet daarin verandering brengen. Door het erfgoed om te zetten in doorzoekbare en analyseerbare data kunnen andere onderzoekers straks nieuw licht werpen op allerlei geschiedkundige en biologische vraagstukken. Naast Leiden zijn Naturalis Biodiversity Centre, de Universiteit Twente, de Rijksuniversiteit Groningen en uitgever BRILL bij dit project betrokken.

Datapatronen in beeldenbrei

De belangrijkste taak van de onderzoekers uit Leiden,
Twente en Groningen is het trainen van de computer in het onderscheiden van informatie in de historische documenten. Wij mensen zien in één oogopslag het verschil tussen een plaatje en een handgeschreven zin. Voor een ongetrainde computer daarentegen, is een foto van een logboekpagina één grote beeldenbrei.

In het project maken de onderzoekers gebruik van het in Groningen ontwikkelde handschriftherkenningsprogramma Monk, maar met dit algoritme alleen zijn de wetenschappers er nog niet. Data scientist biosemantiek Katy Wolstencroft en haar collega’s werken aan een algoritme dat de verschillende onderdelen van een layout kan identificeren op een ingescande pagina: wat is de inhoudsopgave, waar staat de naam van een diersoort en waar de beschrijving? Zodra dit programma deze semantiek kan doorgronden, kan er samenhangende data uit het verslag verkregen worden: een afbeelding van een vleermuis kan dan gecombineerd worden met bijvoorbeeld de benaming ervan, de locatie waar deze gevonden is en de beschrijving van zijn uiterlijk.

Met deze rijke data kunnen biologen onderzoek doen naar de verschillende soorten vleermuizen op Java in de negentiende eeuw. En deze vergelijken met hedendaagse vleermuissoorten. Zo krijgen ze inzicht in hun evolutie en wellicht ontdekken ze nieuwe soorten.

Heterogene data

Voordat het zover is, moeten er nog allerlei problemen worden opgelost. 'De data zijn erg heterogeen van aard', vertelt Wolstencroft. “De verslagen bevatten woorden in verschillende talen: Duits, Latijn, Grieks, Nederlands, Frans en Maleis. Plaatsnamen veranderden door de geschiedenis heen en soms voegden nieuwe auteurs achteraf informatie toe aan een verslag.' Het ontwikkelen van een programma dat zulke nuances begrijpt en intact laat, is niet eenvoudig.

De inhoud van de reisverslagen wordt uiteindelijk gekoppeld aan de soortenarchieven van Naturalis. Ongetwijfeld leidt dit tot nieuwe, waardevolle inzichten voor historici en biologen. Maar dat is niet het enige doel van het project. 'We ontwikkelen een generieke methode om historische documenten te verwerken', zegt Wolstencroft. 'Die kan ook op andere collecties worden toegepast. Uiteindelijk draait het allemaal om het kunnen delen van data.'

Cultureel erfgoed omzetten in bruikbare data

Onderzoeksproject Making sence of Illustrated Handwritten Archives
Brill
NWO
Naturalis Biodiversity Centre
Universiteit Twente
Rijksuniversiteit Groningen