Apache Spark platform: wat, setup en data manipulatie met Spark
In deze sessie leer je wat Apache Spark is en kan. Hoe je in het algemeen data manipulaties uitvoert, hoe je de performance kan tunen, en hoe je data pipelines opzet (low level en professioneel level (MLFlow)). De sessie is voor een stuk theoretisch en voor een stuk hands-on via je eigen laptop (Linux laptop of Windows met WSL 1.0 is vereist).
IT-Professionals of geïnteresseerden die met data(-engineering) bezig en dit op een meer gestructureerde/schaalbare manier willen doen.
Op het einde van deze sessie weet je waarvoor Apache Spark staat en kan je zelf datamanipulaties en eventueel -analyses uitvoeren in de Spark omgeving op je eigen laptop.
In deze 3 uur durende sessie ga je leren wat Apache Spark kan betekenen voor jou en hoe je het praktisch inzet.
De sessie bestaat daarvoor uit een eerder theoretische introductie tot Spark over zijn mogelijkheden en opzet, waarna we praktisch Spark gaan installeren op je laptop (Linux Ubuntu laptop of Windows met WSL 1.0 is vereist).
Je leert ook (simpele) datamanipulaties uitvoeren in je Spark omgeving.
Tevens bekijken we de user interface van Spark die je toelaat om je taken te monitoren en ze performantie gewijs te optimaliseren.
We eindigen de sessie met een praktische introductie tot data pipelines en een inleiding op MLflow, de professionelere versie van data pipelines.
Patrick De Mazière
Patrick De Mazière is ingenieur computerwetenschappen met een passie en track record voor data analyse en machine learning.
Gezien er ook een deel hands-on training is, is het belangrijk dat je zelf een laptop meeneemt. Dit is of een Linux laptop of een Windows Laptop met WSL 1.0 (telkens idealiter Ubuntu/Debian-based).
Locatie: UCLL, campus Proximus, Geldenaaksebaan 335, 3001 Heverlee
Datum wordt met de klant in overleg te bepaald.
Standaard: 150 euro