Universiteit Leiden

nl en

Nieuwe informatie opdiepen uit oude Chinese teksten

Hoe werden ideeën over politiek en maatschappij verspreid in het oude China? Hilde De Weerdt, hoogleraar Chinese Geschiedenis, doet daar onderzoek naar met behulp van nieuwe digitale methoden. We praten met haar over netwerken, big data en digital humanities.

Al sinds de jaren tachtig loopt China voorop op het gebied van de digitalisering van schriftelijke bronnen: er zijn enorme hoeveelheden oude Chinese boeken, brieven, en andere teksten beschikbaar in digitaal formaat. Wat kunnen al deze teksten ons vertellen over de geschiedenis van China? Met behulp van nieuwe digitale onderzoeksmethoden, zoals text mining, kunnen we nu veel grotere hoeveelheden teksten analyseren in korte tijd. Dat levert nieuwe inzichten op, vertelt Hilde De Weerdt.

Hilde De Weerdt

Waar doet u precies onderzoek naar?

‘Ik onderzoek de Chinese politieke geschiedenis en de rol die communicatienetwerken daarin hebben gespeeld. Hoe werden nieuwe ideeën over politiek en maatschappij verspreid gedurende de Chinese geschiedenis? We dachten altijd dat dat van bovenaf gebeurde, vanuit het hof, maar door het analyseren van grote hoeveelheden schriftelijke bronnen zijn we erachter gekomen dat het toch echt anders lag. Vanaf de 12e eeuw kwam er namelijk een culturele, geletterde elite op, die zelf allerlei ideeën verspreidde en op die manier invloed uitoefende.’

Die elite had dus meer macht dan we dachten?

‘Precies. Deze mensen schreven bijvoorbeeld brieven, gedichten en notebooks  - vergelijkbaar met hedendaagse blogs - waarin ze commentaar gaven op allerlei kwesties: van defensie tot diplomatieke betrekkingen, religie en inflatie. In mijn onderzoek hebben we in kaart gebracht via welke netwerken die teksten werden verspreid. Vaak bleek het te gaan om grote netwerken en afstanden. Je kunt je voorstellen dat mensen zo, ondanks het enorme formaat van China, hun ideeën konden samenbrengen en konden zeggen: wij willen dat onze standpunten worden gehonoreerd. Veel ideeën werden lokaal ontwikkeld en raakten daarna zo wijdverbreid dat ze uiteindelijk doordrongen tot de top.’

Hoe heeft u die netwerken in kaart gebracht?

‘In de teksten die we gebruikten in het onderzoek, hebben we geanalyseerd wie met wie in contact was, wie brieven aan wie richtte, en wie op wie commentaar leverde. Dat hebben we bijvoorbeeld gedaan door eigennamen semi-automatisch uit de teksten te laten halen. En vervolgens hebben we die netwerken met behulp van digitale methoden gevisualiseerd en in kaart gebracht welke regio’s in China ze bestreken.’

Dit soort onderzoek is waarschijnlijk alleen mogelijk als er heel veel teksten digitaal beschikbaar zijn?

‘Dat klopt, en op dat gebied zijn we bij Chinastudies in het voordeel. In de Chinese context werd heel vroeg al veel belang gehecht aan het digitaliseren van de tekstuele traditie, waardoor er heel veel digitale bronnen zijn. Maar er is nog maar weinig gedaan om echt gebruik te maken van al dat materiaal.’ 

Hoe komt dat?

‘De mogelijkheden zijn nog beperkt: behalve die teksten gewoon te doorzoeken op trefwoord, kun je er in de meeste commerciële databanken weinig mee. In de jaren tachtig en negentig waren we daar natuurlijk al heel blij mee, het was al revolutionair dat die teksten waren gedigitaliseerd. Maar lang niet alle mogelijkheden van de data werden ermee benut. Als je bijvoorbeeld met zo’n keyword search duizend resultaten kreeg, was dat eigenlijk al te veel om mee te kunnen werken. Het devies was dan: beperk je tot een bepaalde periode of auteur, om het aantal hits te verkleinen. Maar die methode past eigenlijk niet meer in deze tijd. Je wilt nu liefst alle data gebruiken die je hebt, om op die manier nieuwe vragen te ontdekken en tot nieuwe inzichten te komen.’

Is dat waarom u zelf het systeem MARKUS heeft ontwikkeld?

‘Ja, in ons onderzoek naar communicatienetwerken realiseerden we ons dat het niet erg efficiënt is om grote hoeveelheden teksten handmatig na te lopen. Daarom hebben we het platform MARKUS ontwikkeld, dat automatisch relevante informatie voor je markeert. Stel, je doet onderzoek naar Chinese stadsmuren en je wilt weten waar die muren stonden, hoe hoog ze waren, hoe en wanneer ze werden gebouwd, etcetera. Als je dat soort informatie op de traditionele manier gaat zoeken, ben je daar jaren zoet mee. Maar met behulp van een platform als MARKUS kun je allerlei informatie automatisch uit teksten naar boven halen.’

Hoe werkt dat precies?

‘Je voert je tekst in, geeft aan naar wat voor soort informatie je op zoek bent, en het systeem helpt je een heel eind op weg door bijvoorbeeld plaatsnamen, eigennamen, tijdsaanduidingen en andere relevante informatie automatisch naar boven te brengen.  En al die informatie is dan ook weer gekoppeld aan andere databases die je samen met je eigen data kan gaan analyseren in visualisatieplatformen die aan MARKUS gekoppeld zijn. Doordat we nu al die verschillende datasets kunnen combineren, komen we tot nieuwe inzichten.’

Zou u de data waarmee u werkt ‘big data’ noemen?

‘Iemand die zich met astronomie bezighoudt, zal onze datasets klein vinden. En dat zijn ze natuurlijk ook. Maar er zijn zeker parallellen met big data. Het idee dat je niet meer werkt met kleine steekproeven, maar alle beschikbare data gebruikt en daar de patronen uithaalt, daar zijn wij nu ook mee bezig. Vroeger was het bijvoorbeeld onmogelijk om tienduizend teksten te analyseren, of kon dat alleen met collectieve teams die er decennialang aan werkten. Dus als we het hebben over het gebruik van nieuwe methoden voor het verwerken van data, dan zeg ik: ja, dat is aan het gebeuren. Maar het staat nog in de kinderschoenen.’ 

U bent een van de mensen die vooroplopen op het gebied van digital humanities. In hoeverre houden andere geesteswetenschappers zich daarmee bezig?

‘Ik denk dat we in een overgangsperiode zitten. De interesse is er zeker, maar veel onderzoekers voelen zich nog niet toegerust om met digitale methoden onderzoek te kunnen doen. De jongere generatie wel, daaraan zie je dat het aan het veranderen is. Maar ook voor hen geldt dat samenwerking met informatici cruciaal is, want daardoor kun je dingen doen die je in je eentje niet zouden lukken. En andersom kunnen informatici ook iets leren van geesteswetenschappers: samenwerking kan leiden tot nieuwe, originele projecten. Daarom hebben we kort geleden het Leiden University Centre for Digital Humanities opgericht.’

Hoe bent u zelf met digital humanities in aanraking gekomen?

‘Ik had al vroeg interesse in die computationele kant, maar dat ik me echt met digitale onderzoeksmethoden ben gaan bezighouden is iets van de laatste 7, 8 jaar. Ik wilde die Chinese communicatienetwerken in kaart brengen en zocht naar de beste manier om dat te doen. En soms blijkt dan, zoals in mijn geval, dat computationele methoden iets extra’s bieden, omdat ze je toelaten je onderzoeksvraag vanuit een andere hoek te benaderen.’

Tot slot: was u altijd al geïnteresseerd in China?

‘Toevallig vond ik laatst tussen mijn  oude spullen een paar naamkaartjes met Chinese tekens, die ik had gemaakt op de basisschool. Ik was toen een jaar of negen denk ik. Dus ja, die interesse heeft er altijd wel een beetje in gezeten.’ 


Hilde De Weerdt promoveerde aan Harvard University en was vervolgens postdoc aan de University of California at Berkeley, Stanford University en Harvard University. Daarna doceerde ze Chinese Geschiedenis aan de University of Oxford (2007-2012) en aan King's College London (2012-2013). Sinds 2013 is ze als hoogleraar Chinese Geschiedenis verbonden aan het Leiden Institute for Area Studies, waar ze onder andere onderzoek doet naar de impact van informele groepen en netwerken op het politieke proces in China. Samen met  Dr. Brent Ho ontwikkelde ze het platform MARKUS voor de annotatie en de visualisering van data in Chinese teksten.

(JvdB)

In deze serie interviews komen onderzoekers van het Leiden Centre of Data Science (LCDS) aan het woord. LCDS is een netwerk van onderzoekers uit verschillende wetenschappelijke disciplines, die gebruik maken van innovatieve methodes voor het omgaan met grote hoeveelheden data. Het doel van samenwerking tussen deze onderzoekers is het vinden van slimme oplossingen voor wetenschappelijke en maatschappelijke kwesties.