Robuust kader van de evaluatie van GenAI-systemen bij een open-ended taken

eel kmo’s met een innovatieve mindset, maar beperkte AI-kennis, voelen zich door fear of missing out (FOMO) verplicht om mee te gaan in de hype rond generatieve AI (GenAI). Hierdoor worden systemen zoals ChatGPT Team of Copilot for Microsoft 365 vaak impulsief aangeschaft, zonder grondige evaluatie (Mohanty, 2023). Deze aanpak negeert het belang van een diepgaande analyse om te bepalen of een aangekocht systeem daadwerkelijk aan de verwachtingen voldoet en daarmee de investering waard is (een tijdsinvestering in het geval van gratis tools). Dit probleem is vooral relevant bij GenAI-systemen gebaseerd op Large Language Models (LLM’s), waarvan de output open-ended is. Deze systemen leveren geen eenduidige antwoorden, maar genereren outputs die variëren afhankelijk van de taak, zoals het schrijven van teksten (Duranton, 2024). Dit maakt de evaluatie complex, omdat traditionele kwantitatieve evaluatiemethoden uit de machine learning, zoals precisie en recall, onvoldoende rekening houden met de kwalitatieve aspecten van de output. 
Momenteel evalueren gebruikers deze systemen vaak op basis van een eerste indruk of gevoel – een zogenaamde vibe check (Dunlap et al., 2024). Hoewel begrijpelijk, is dit ‘gevoel’ een beperkte aanpak. Gebruikers schrijven een systeem of prompt regelmatig te snel af bij tegenvallende resultaten, vaak omdat deze slechts op ad-hoc en beperkte basis zijn getest. Dit leidt tot onjuiste conclusies en gemiste kansen, terwijl de effectiviteit van een systeem sterk afhankelijk is van de specifieke taak, context en toepassing. 
Dit project ontwikkelt een holistisch evaluatiekader dat niet-technische eindgebruikers in kmo’s helpt om de prestaties van GenAI-systemen systematisch te beoordelen. Het kader toetst de open-ended output van deze systemen aan specifieke taken, verwachtingen en vooraf gedefinieerde voorbeeldantwoorden. Hierdoor krijgen eindgebruikers niet alleen inzicht in één aspect van de prestaties, maar kunnen ze het systeem en de bijhorende prompts op meerdere dimensies analyseren. Het kader biedt concrete handvatten om afwijkingen van de gewenste resultaten te identificeren en te begrijpen. Door deze gestructureerde aanpak krijgen bedrijven een genuanceerd beeld van de sterke en zwakke punten van een AI-configuratie, wat leidt tot beter geïnformeerde beslissingen. 
Met dit project kunnen kmo’s hun investeringen in GenAI optimaliseren en tools selecteren die beter aansluiten bij hun specifieke bedrijfsdoelen. Dit voorkomt verspilling, verhoogt de productiviteit, en versterkt het vertrouwen in generatieve AI-technologie als duurzame oplossing.

Code
PWO KaGAI 25
Startdatum
Einddatum
Financieringskanaal
PWO-middelen
PWO_Projectmatig onderzoek
Projectleider
Partners
  • UC Leuven (BE)