LISS panel: pionier in Europa voor probability-based en representatief online onderzoek

Corona kreeg dit jaar geen kans om spelbreker te zijn. Het jaarlijkse congres voor General Online Research (GOR) in Duitsland kon weer ‘in het echt’ worden georganiseerd in plaats van online. Dit keer viel de eer te beurt aan de Technical University of Applied Sciences (HTW) in Berlijn voor de organisatie van het congres van 7 tot en met 9 september 2022. Ook vanuit Centerdata nam een delegatie deel. ‘We zijn genomineerd voor de Best Practice Award voor een onderzoek met beweegmeters in Malawi. Ook de hoge kwaliteit van ons LISS panel waarmee we pionier zijn in Europa kwam aan bod.’

Tijdens de GOR presenteren vakgenoten hun werk. Dat loopt uiteen van methoden voor online dataverzameling via surveys in online panels, smartphones en wearables, tot methoden van analyse van sociale media data, administratieve data, accelerometerdata (beweegmeters) en big data bronnen. Wetenschappers van verschillende disciplines, commercieel en non-profit, wisselen hun kennis hier uit. Dit om online onderzoek te vernieuwen en te verbeteren. ‘Een gelegenheid bij uitstek om te laten zien wat we in huis hebben’, vertelt Joris Mulder, senior onderzoeker en LISS coördinator bij Centerdata. Hij geeft aan dat het onderzoeksinstituut met maar liefst drie verschillende bijdragen was vertegenwoordigd op GOR22. Zo was er een presentatie over het bouwen van machine learning en deep learning modellen om specifieke fysieke activiteiten uit data van beweegmeters te herkennen. En hoe deze modellen zijn te valideren met surveydata. Deze projecten zijn uitgevoerd op basis van data verzameld in het LISS panel. Vervolgens was er een plenaire discussie over de hoge kwaliteit van dit panel.  

Voorspellingsmodellen

De presentaties over beweegmeters wierpen een nieuw licht op meten van tijdbesteding. Hoe zijn modellen op data toe te passen, verzameld met beweegmeters in Malawi, om tijdbesteding te kunnen voorspellen? Dit onderzoek is door Centerdata in opdracht van The World Bank uitgevoerd. Het heeft als doel onderzoek naar tijdbesteding in afgelegen en lastig te bereiken gebieden te vergemakkelijken. Om uiteindelijk de kwaliteit van leven in die gebieden van Malawi te verbeteren. Objectieve dataverzameling met beweegmeters vervangen zo subjectieve zelfrapportages over tijdbesteding bij een doorgaans niet tot laaggeletterde bevolkingsgroep. Een kostenefficiënt alternatief, waar de voorspellingsmodellen van Centerdata een centrale rol in spelen. Centerdata en The World Bank waren voor dit onderzoek genomineerd voor The Best Practice Award.

Valideren met survey data

Vooral de aanleiding van onderzoek met beweegmeterdata, voor het herkennen van fysieke activiteiten, stond centraal bij de presentatie over het bouwen van machine learning en deep learning modellen. Met name de mogelijkheid tot het herkennen van specifieke activiteiten, de mate van fysieke inspanning en de relatie tot gezondheid was belangrijk. Bij activiteiten valt te denken aan lopen, joggen, fietsen, autorijden, slapen en zitten. Zelfs tandenpoetsen kan door de modellen herkend worden. Dat deze herkende activiteiten zijn te valideren met survey data bleek duidelijk aan te slaan bij het publiek. ‘Zeer interessant en vernieuwend’, waren te horen reacties.

The GOR Best Practice Award

Seyit Höcük, senior data scientist bij Centerdata, presenteerde vervolgens hoe deze modellen in de praktijk zijn toegepast op beweegmeterdata, verzameld in Malawi. Höcük heeft het onderzoek uitgevoerd met collega’s Pradeep Kumar en Joris Mulder. ‘Op een congres met een sterke focus op online survey onderzoek en marketingtoepassingen was ons onderzoek in Malawi misschien een beetje een vreemde eend in de bijt. We zijn dan ook bijzonder trots dat we, naast de nominatie voor The GOR Best Practice Award, uiteindelijk op een officieuze tweede plaats zijn geëindigd, zo werd verteld. Voor een tweede opdracht voor The World Bank is inmiddels financiering voor een onderzoeksvoorstel gehonoreerd. Tijdens dit vervolgproject zetten we de voorspellingsmodellen van Centerdata niet alleen opnieuw in voor afgelegen, maar ook voor stedelijke gebieden in Malawi, om activiteiten te kunnen voorspellen uit beweegmeterdata’, aldus een meer dan trotse Höcük met zijn collega’s.

Paneldiscussie

Naast de innovaties van Centerdata bracht ook de plenaire paneldiscussie over online (non) probability-based panels een levendige interactie met het publiek op gang. De uitdagingen rondom het rekruteren van huishoudens kwamen aan bod. Hoe zet je een online probability-based representatief panel op voor een land of specifieke populatie? Wanneer zet je juist dit panel in? Drie experts kruisten in debat met elkaar, maar ook met het publiek, de spreekwoordelijke degens hierover. Maar Joris Mulder (LISS panel), Ulrich Krieger (German Internet Panel) en Johannes Lemcke (Robert Koch Institute) bleken het als onderzoekers toch eerder eens dan oneens te zijn. Toch zeker over het LISS panel. ‘Dat geldt als pionier in Europa als het gaat om het opzetten van en onderzoek doen met online probability-based panels. In meerdere landen zijn er met hulp van Centerdata panels met een vergelijkbare methode opgezet, o.a. GIP in Duitsland en ELIPSS in Frankrijk’, aldus Mulder.

Verschil in representativiteit

Aan de orde kwam ook het nut van het geven van incentives aan panelleden om deelname aan online panelonderzoek te stimuleren. Ook het verschil in representativiteit tussen non-probability-based panels en probability-based panels was een punt van discussie. ‘Is het verschil niet alleen een puur academische discussie, is er in de praktijk wel écht een verschil?’, was een vraag uit het publiek. ‘Als je écht betrouwbare uitspraken wilt kunnen doen over je doelpopulatie, de onderzoeksgroep, kies dan alleen een probability-based panel waarin alle subgroepen van je populatie zijn vertegenwoordigd’, antwoordde daarop Mulder, LISS coördinator bij Centerdata. ‘Want voor betrouwbaarheid ben je daar op aangewezen.’ Ulrich Krieger (GIP) beaamde dat.

Betrouwbare uitspraken

‘Dat betekent niet dat non-probability-based panels niet goed te gebruiken zijn voor onderzoek’, vulde Mulder daarop aan. ‘Deze panels zijn prima voor onderzoek waar representativiteit minder van belang is. Denk aan pilotstudies. Of studies met vooronderzoek of een bepaald kenmerk in een populatie überhaupt aanwezig is. Bij uitstek zijn dan non-probability-based panels geschikt, onder andere uit kostenoverwegingen. Daarna kan opschalen naar probability-based panels zoals het LISS panel in vervolgonderzoek, zodat betrouwbare uitspraken over de doelpopulatie mogelijk zijn.’ Holger Geissler, gespreksleider van de paneldiscussie, maakte de vergelijking tussen een Audi als probability-based panel en een kleine Fiat als non-probability-based panel: ‘Ze rijden anders, maar het zijn allebei auto’s.’

Meer geschikt: Audi of Fiat?

Waarop Mulder besluit met: ‘Heel het land bereizen, daarvoor is een Audi veiliger en comfortabeler. Dus meer geschikt. Maar voor alleen in de stad valt een kleine Fiat te verkiezen. Parkeren is makkelijker en het rijden is goedkoper. Zo is het ook met online onderzoek waarvoor representativiteit van belang is. Het devies is dan ook: kies het juiste instrument, afhankelijk van het doel van het onderzoek,’ aldus de onderzoeker.