Inhoud

Doelgroep

Deze opleiding is geen cursus Python. In de opleiding bekijken we de Python code die relevant is voor de text mining technieken, maar dit vergt wel een elementaire kennis van datastructuren in Python en hoe die datastructuren gemanipuleerd worden (lists, dataframes) en basisbegrippen van programmeren (statements; assignements; condities; functies).

Concreet gaan we aan de slag met Jupyter Notebooks om de Python code uit te leggen en uit te proberen. Cursisten kunnen deze notebooks uitvoeren via Google Colab of via een eigen Python installatie (bijvoorbeeld gratis distribute van Anaconda, waarmee ook Jupyter Notebooks geïnstalleerd kan worden).

Voor mensen zonder basiskennis Python voorzien we wel leermateriaal om zelfstandig Python aan te leren, maar dat komt dus niet aan bod in de cursus zelf, dat dienen de cursisten zonder basiskennis Python zelf op eigen tempo door te nemen vóór het begin van de cursus.

Deze opleiding is ook geen cursus in data mining of machine learning. In de opleiding zien we de specifieke text mining technieken en de bijhorende Python code. De basisprincipes van data mining en machine learning worden geacht gekend te zijn door de cursisten (modellen trainen via gelabelde voorbeelden; probleem van overfitting; het valideren van modellen door gebruik te maken van hold-out samples; hyperparameter tuning, precision en recall, ...). Een minimale kennis van Scikit-learn (Python library voor machine learning) is meegenomen.

Doelstellingen

Een conceptuele basiskennis verwerven over text mining : wat is het, wat kan je er mee doen, hoe werkt het, wat zijn de problemen en hoe kan je die oplossen.

Een praktische basiskennis verwerven om text mining uit te voeren met Python: Text preprocessing (tokenization, stemming, stopword removal, indexing/vectorization), exploratie (word clouds), word embeddings (word2vec, BERT, USE), clustering en classificatie.

Programma

Concepten van text mining
- Wat is text mining
- Wat maakt dit anders dan klassieke data mining
- Specifieke uitdagingen
- Mogelijke oplossingen

Text preprocessing en NLP technieken met NLTK en spaCy (hands-on)
- Tokenization
- Stemming / lemmatization
- Stopword removal
- Part-of-speech tagging voor feature selection
- Indexing / vectorization

Exploratie (hands-on)
- Vocabulary
- Word clouds

Word embeddings (hands-on)
- word2vec
- BERT
- USE

Clustering (hands-on)

Classificatie (hands-on)

Lesgever

Tom Magerman is lector in de opleiding toegepaste informatica en verantwoordelijke van de BaNaBA en postgraduaatsopleiding Data & Analytics aan UCLL. Hij is tevens actief als onderzoeker bij het expertisecentrum Digital Solutions en actief in toegepast onderzoek in het veld van data mining en text mining.