Tijdens een Meetup op 25 september, georganiseerd door Amsterdam AI heb ik een aantal nieuwe inzichten gekregen in de ontwikkelingen in het werkveld van AI. Machine Learning of Data Science, zijn termen die we tegenwoordig vaak door elkaar gebruiken. Deze inzichten wil ik graag met de wereld delen.

De hoofdspreker was een van de ontwikkelaars van Toon, de slimme meter. Er werd meteen met allerlei vakjargon gesproken en ik genoot er meteen van. Yes! Ik kon mijn hersenen weer even vol aan zetten, meedenken in zijn oplossingen en tevens even toetsen welke kennis er nog was blijven hangen van mijn Master Data Science Business and Governance. Super interessant om te horen hoeveel Machine Learning er achter Toon zit, maar ook hoe voorspelbaar wij Nederlanders zijn met betrekking tot ons huishouden.

Na de informatieve lezing werd er een paneldiscussie gehouden, onder drie verschillende experts/ondernemers. Er waren twee topics die er voor mij uitsprongen: ‘Externe data’ en ‘Wat is het uitgangspunt, de data of de vraag?’

Externe data

Het eerste topic, externe data, gaf meteen al een mooi inzicht hoe de meningen vanuit de praktijk verschillen. Als kanttekening voeg ik toe dat de term ‘externe data’ door iedereen anders geïnterpreteerd kan worden. Is dit puur de data die los staat van de interne data en die door een externe bron gegenereerd wordt. Of heeft de term ‘extern’ ook betrekking op de meta data die een (finance, logging, etc.) systeem genereert maar waar de eindgebruikers alleen toegang tot hebben nadat ze hun softwarepakket uitbreiden en de meta data als het ware ‘kopen’.

Opinie 1

Eén persoon gaf aan dat je geen externe data nodig hebt, noch data lakes. Dit was iets onnodigs omdat je vooral informatie haalt uit de data die je al hebt. Het verzamelen van alle data in een lake en daarna pas kijken wat je er mee doet is tijd en geldverspilling. Punt.

Opinie 2

Een tweede persoon heeft de tegenovergestelde mening. Het kan wel degelijk zinvol zijn externe data te gebruiken  en in sommige gevallen kan je er niet meer omheen. In ons dagelijks leven passen we als individu bij veel keuzes die we maken externe data toe, met als meest gangbare voorstel buienrader.nl, die je vaak raadpleegt voordat je besluit op de fiets te stappen, of je wel of geen regenjas meeneemt. Dit is zo gangbaar geworden dat we het normaal vinden om deze externe data te raadplegen of soms zelf niet meer zonder kunnen.

Vanuit ondernemer perspectief kan externe data ook van belang zijn. Bijvoorbeeld wanneer het toevoegen van externe (open source) data jouw (AI) model voor een klant kan verbeteren, waardoor je een hogere accuracy bereikt die er vervolgens voor zorgt dat een klant jou een bepaalde opdracht gunt die je anders had verloren aan een concurrent. In dit geval is het erg effectief om of externe data te kopen of gebruik te maken van open source data (denk aan KNMI) omdat het je meer informatie geeft dan de interne data alleen en hiermee je inzichten verbreedt en dus ervoor zorgt dat je een betere voorspelling kunt maken.

Naast externe data is volgens de mening van persoon 2 metadata ook zeker bruikbaar. Verzamel de metadata (in een lake), of gooi het op zijn minst niet weg. Onderzoek vervolgens welke extra informatie je er tijdens een exploratiefase nog uit kunt halen. Mocht de metadata niet relevant zijn dan kun je altijd later nog besluiten hem toch niet op te slaan.

Mijn mening

Mijn mening over dit topic relateert het meeste aan die van opinie 2. Natuurlijk begint je data exploratie bij het omspitten van je eigen achtertuin, alvorens je over externe data na denkt. Maar wanneer je het vermoeden hebt dat toevoeging van externe data jouw oplossing kan onderscheiden van de concurrent is er in mijn ogen weinig dat je tegen houdt om externe data te kopen of simpelweg te downloaden en toe te voegen aan je model.

In het geval van meta data kan dit anders liggen. De kosten die bij het uitbreiden van een softwarepakket om de hoek komen kijken kunnen flink oplopen, waarbij het nog maar de vraag is of deze meta data daadwerkelijk meer informatie geeft dan de gegevens die je tot nu toe hebt.

(Dus stel, er is log data beschikbaar van een lijst met gebeurtenissen binnen een proces, echter alleen de laatst doorgevoerde aanpassing is beschikbaar als data om mee te werken. Om te ontdekken waar het probleem in het proces zit rondom het loggen van gebeurtenissen wil je graag ontdekken wie er als eerste gelogd heeft, hoe vaak en welke wijzigingen er zijn doorgevoerd en door wie. Echter om aan deze data te komen dient de organisatie een uitgebreide versie van het betreffende softwarepakket te kopen en gaat men bespreken of dit het waard is. In dit geval vind ik meta data onder de noemer externe data vallen, omdat het dus een extra handeling vergt en een financiële investering.)

Kip of Ei?

Het tweede topic dat mij vooral aansprak was de vraag wat je als uitgangspunt neemt, de vraag van de klant of de data van de klant. Voor beiden valt iets te zeggen, voor beiden zijn er ook tegen argumenten te bedenken.

‘Ik heb een (onderzoeks-) vraag. Kan ik deze beantwoorde met de data die ik heb?’

Voors:

Er is speelt een topic binnen de organisatie waar je voor werkt, ze willen graag data gedreven gaan werken of vragen beantwoorden door middel van de data die ze al jaren (in hun lake) verzamelen. Je gaat dus uit van de vraag en gaat aan de hand daarvan aan de slag.

Als de klant alle benodigde data in huis heeft kun je een heel eind komen als data scientist. Je kunt de onderzoeksvraag van de klant beantwoorden en hem daar waar nodig adviseren welke (meta)data mogelijk nog ontbreekt of welke vervolg onderzoeksvragen er geformuleerd kunnen worden.

Tegens:

Wanneer je uit gaat van de vraag en later pas naar de data kijkt, ga je ervanuit dat de vraag al goed doordacht is door de business. Maar hierbij moet je wel het volgende bedenken: Wat gebeurt er als er geen data beschikbaar is? Kun je dan de vraag van de klant niet beantwoorden?

Wanneer je als data scientist aan deze manier van werken vasthoudt, kun je een aantal eisen stellen voordat je aan een opdracht begint. Er moet kwalitatief goede en voldoende data zijn alvorens je aan de slag gaat. Hiermee verzeker je jezelf dat je alleen echt data science werk doet. Nadeel hiervan kan zijn dat je mogelijke andere opportunity’s misloopt.

‘Ik heb data, welke informatie kan ik hieruit halen en welke vragen kan ik beantwoorden?’

Dit wordt vaak omschreven als de manier hoe business analisten te werk gaan. Welke informatie kan ik halen uit de data die er al ligt?

Voors:

Door te graven in de interne data kom je er achter welke informatie allemaal wordt opgeslagen en wat de kwaliteit ervan is. En door te exploreren kun je veel verschillende inzichten en invalshoeken krijgen van de (verborgen) informatie in de data. Je kunt eindeloze descriptive statistics berekenen, correlaties ontdekken tussen variabelen en visualisaties maken om zo veel mogelijk inzicht te krijgen uit de data.

Tegens:

Zonder een duidelijk doel is het als analist moeilijk om een richting te kiezen voor de exploratie van de data. Welke tabellen gaan er onderzocht worden? Welke correlaties is men naar op zoek? Wat wil men gaan voorspellen en welke variabelen dienen er gekwalificeerd te worden?

Naar mijn (en van vele anderen) mening is de situatie niet zo zwart wit zoals ik deze hier boven schets. Het is een wisselwerking tussen de verschillende uitgangspunten. Het is handig wanneer een organisatie eerst een onderzoeksvraag heeft, of heel graag ‘iets wil gaan voorspellen met Machine Learning’. Als data scientist kun je dan de (interne) data induiken, de datakwaliteit beoordelen en adviseren wat een bedrijf nog meer kan verzamelen aan data om hun onderzoeksvraag beter te beantwoorden of bijvoorbeeld de onderzoeksvraag aanpassen omdat er geen data voor beschikbaar is.

Aangeleerde hulpeloosheid

De psycholoog in mij zag nog iets anders duidelijk naar voren komen, aangeleerde hulpeloosheid, of wellicht een lichte vorm daarvan. Aangeleerde hulpeloosheid verwijst naar passief en apathisch gedrag, waarbij mensen niets ondernemen om hun als onaangenaam beleefde situatie te veranderen (van der Ploeg, J. D., 2003). Daar waar het ene panel lid behoorlijk conservatief was in zijn gedachte, beperkte hij zichzelf en zijn onderneming enorm in mijn ogen. Dit had vooral betrekking op de stelling: ‘de klant heeft een vraag en welke data is er om deze te beantwoorden’. Indien er geen data is kon dit panel lid niet aan het werk voor de betreffende klant. Hiermee beschermde hij zijn werk tot puur data science werk, maar sluit hij pertinent ook alle klussen uit waarbij er geen of nog onvoldoende data beschikbaar is.

Hiertegen gaf een tweede panel lid aan dat hij hier juist een businessmodel omheen heeft ontwikkeld, een zogenoemde ‘data readyness check’.

Ik probeer deze situatie te vergelijken met een trainer die een kind moet leren rennen. Zodra de trainer aan de slag gaat komt hij erachter dat het kind alleen nog maar rond kan kruipen en dat rennen een veel te hoog gegrepen doel is. Dit is te vergelijken met een lage maturity van een bedrijf. Ze willen wel graag data science gaan doen, Machine Learning en AI toepassen, maar zitten nog in de fase waarin ze data moeten verzamelen en begrijpen wat data science eigenlijk is!

Er zijn twee manieren om hier mee om te gaan. 1. Je zegt tegen het kind: op deze manier kan ik je niet leren rennen, kom maar terug als je kunt lopen. 2. Je neemt het kind aan de hand, stap voor stap leer je het lopen, eerst aan de hand, daarna zelfstandig. Al snel zal het kind sneller en sneller vooruit willen gaan en voor je het weet is het klaar om zijn eerste rondje om de tafel te rennen. Doormiddel van de tweede aanpak begeleid je een organisatie om meer mature te worden. Je adviseert de organisatie welke stappen en ontwikkelingen ze moeten doormaken en blijft hen begeleiden in dit proces. Zo ontwikkel je wederzijds vertrouwen en kun je uiteindelijk samen de stap maken om data science toe te gaan passen in de praktijk.