Universiteit Leiden

nl en

PhD-project

Van Tekst naar Kennis: Taalmodellen voor Extractie van Kennisgrafen en Ontologieën

Dit promotieonderzoek onderzoekt hoe taalmodellen kunnen worden ingezet om gestructureerde kennis uit tekst te extraheren op een manier die nauwkeurig, robuust en toepasbaar is in praktijksituaties.

Looptijd
2022 - 2026
Contact
Roos Bakker
Afbeelding door Pete Linforth op Pixabay
Afbeelding door Pete Linforth op Pixabay

Kennisgrafen en ontologieën zijn krachtige middelen om data te structureren en linguïstische entiteiten en relaties weer te geven. Het opzetten van zulke modellen vergt echter veel handmatig werk van domeinexperts. Dit promotieonderzoek onderzoekt hoe taalmodellen ingezet kunnen worden om de extractie en evaluatie van semantische modellen te automatiseren.

In de juridische sector vergeleken we taalmodellen voor het extraheren van kennisgrafen, met focus op FLINT, een ontologie die juridische handelingen en bijbehorende rollen formaliseert. Fine-tuned BERT-modellen op een nieuwe Nederlandse dataset presteerden het best, hoewel generatieve LLMs voordelen bieden in situaties met weinig data.

In de veiligheidssector onderzochten we relatie-extractie. LLMs presteerden beter dan andere methoden, maar haalden nog niet het niveau van de handmatig gemaakte kennisgrafen.

Daarnaast verkenden we ontologie-extractie. Hoewel de resultaten met LLMs niet van voldoende kwaliteit zijn voor volledige automatisering, kunnen ze waardevolle kandidaat-axioma’s bieden en het modelleren versnellen.

 Evaluatie is cruciaal maar uitdagend voor kennisgrafen en ontologieën: automatische metrics kunnen veranderingen in kennisgrafen en ontologieën betrouwbaar detecteren. Onze bevindingen laten zien dat domeinspecifieke modellen beter presteren en dat complexere structuren moeilijker te identificeren zijn, maar dat NLP-technieken nuttige ondersteuning kunnen bieden voor kennismodellering.

Samengevat benadrukt dit werk het potentieel en de beperkingen van NLP voor het extraheren van gestructureerde informatie. We zien dat domeinspecificiteit belangrijk is: modellen die getraind of aangepast zijn voor een bepaald vakgebied presteren beter dan algemene modellen. Ook beïnvloedt de structurele complexiteit de resultaten: axioma’s zijn moeilijker te identificeren dan oppervlakkige entiteiten. Tot slot is evaluatie essentieel: automatische evaluatiemetrieken kunnen veranderingen in kennisgrafen en ontologieën betrouwbaar detecteren. Gecombineerd laten deze bevindingen zien dat volledig geautomatiseerde kennisgrafiekextractie en ontologie-extractie nog buiten bereik liggen, maar dat NLP-technieken zoals fine-tuned modellen en generatieve LLMs waardevolle ondersteuning kunnen bieden aan ontologie ontwikkelaars door kandidaat-axioma’s aan te dragen, verbeteringen voor te stellen en het modelleringsproces te versnellen.

Deze website maakt gebruik van cookies.  Meer informatie.