Uitwerken van best practices en voorgetrainde taalmodellen voor text mining en natural language processing in het Nederlands

Het belang en potentieel van data mining en machine learning binnen het bedrijfsleven (en bij uitbreiding onze maatschappij) valt niet te onderschatten. Niet voor niets wordt dit omschreven als de vierde industriële revolutie. Vanwege het disruptieve karakter van deze technieken is het cruciaal dat onze ondernemingen volop kunnen meedraaien in deze omwenteling en deze technologieën kunnen toepassen en integreren.
Text mining, het toepassen van data mining op ongestructureerde tekstuele data, vormt hierbij een dubbele uitdaging. Enerzijds zorgt text mining voor het aanboren van een extra schat aan data en mogelijkheden - geschat wordt dat slechts 20% van de digitaal beschikbare data rechtstreeks ontsluitbaar is via georganiseerde databanken, 80% van alle data is ongestructureerde (tekstuele) data. Anderzijds zorgt net het tekstuele en ongestructureerde karakter voor significante technische moeilijkheden.
Contacten met bedrijven en eerdere projecten bij Digital Solutions leren ons dat het niet evident is om in dit snel evoluerend veld van text mining, natural language processing (NLP) en computerlinguïstiek in de veelheid van technieken en ontwikkelingen de juiste selectie te maken van mogelijke oplossingstrajecten. Het linguïstisch aspect zorgt voor een bijkomende drempel in het Nederlands: niet alle technieken en modellen zijn terdege uitgewerkt voor het Nederlands. Zeker met de nieuwste evoluties van word embeddings en transfer learning is dat een probleem; deze technieken vergen voorgetrainde modellen die niet altijd beschikbaar zijn in het Nederlands.
De bedoeling van ons project is om deze drempels te verlagen zodat onze bedrijven deze technieken vlotter kunnen assimileren. Het opzet is tweeërlei:

(1) Enerzijds willen we een praktische vergelijkende studie maken van de verschillende beschikbare methodes, technieken en tools voor het Nederlands voor courante text mining/NLP taken (zinsontleding, named entity recognition, topic detection, clustering, classificatie, …) die op hun beurt instrumenteel zijn voor taken van een hoger niveau. We willen een inventaris opmaken van beschikbare tools (OpenNLP, CoreNLP, Spacy, LSA, LDA, …), de performantie vergelijken op praktische gevallenstudies, en best practices voorstellen.
(2) Anderzijds willen we in lijn met de nieuwste inzichten en evoluties (word embeddings, tranfer learning, RNN, BERT, …) taalmodellen trainen voor het Nederlands zodat meer state-of-the art technieken voor het Nederlands beschikbaar worden.
 

Code
PWO TMNL 21
Startdatum
Einddatum
Financieringskanaal
Praktijkgericht Wetenschappelijk Onderzoek
Expertisecentrum
Partners
  • Brainjar (BE)
  • KU Leuven (BE)
  • Machine Learning Engineer (BE)
  • Université Coté d'Azur (BE)
  • Van Havermaet (BE)
  • Xenit Solutions (BE)