Bij het stellen van open vragen bij surveyonderzoeken worden vragen weleens anders geïnterpreteerd dan gewenst. Antwoorden bestaan daarbij soms uit enkele woorden of complete zinnen. Dit kan leiden tot een grote variatie aan mogelijke antwoorden.
Ook komen er geregeld spelfouten, afkortingen, synoniemen en incomplete of onduidelijke omschrijvingen voor. Een functieomschrijving als “arts” is heel algemeen en kan allerlei betekenissen hebben, zoals dierenarts, oogarts, huisarts, kinderarts of chirurg. Open antwoorden zijn daardoor niet direct geschikt voor gestructureerd onderzoek. Een uitgebreide datavoorbewerking is dan nodig.
Voor het Beeld van de Nederlandse Bevolking (BNB) zijn er open vragen gesteld aan de deelnemers. Deze gingen over functies en werkzaamheden met vragen zoals “wat is uw functie?” en “wat zijn uw werkzaamheden?”. Radboud Universiteit (RU) Nijmegen wilde deze antwoorden gebruiken om onderzoek te verrichten.
Geautomatiseerd categoriseren
Centerdata is gevraagd om aan de hand van de verkregen open antwoorden, structuur aan te brengen in de werkfuncties van de deelnemers. Het gaat om ongeveer 6.000 antwoorden. Het handmatig beoordelen en onderverdelen van de functies is een tijdrovende klus en er bestaat altijd een kans dat het overzicht verloren gaat in de grote hoeveelheid aan beschikbare werkfuncties.
Daarom is het doel om de werkfuncties geautomatiseerd aan de hand van AI-technieken onder te verdelen in ISCO-codes (International Standard Classification of Occupations). Dit bespaart niet alleen tijd en kosten, maar ook vooroordelen, gebrek aan overzicht en moeheid bij beoordelaars spelen dan geen rol.
Geavanceerde technieken
Wij hebben geavanceerde text analytics-technieken ingezet voor de toewijzing van de functietitel van de respondent aan de juiste ISCO-codes. We gebruikten hiervoor de tool BERT (Bidirectional Encoder Representations from Transformers; J. Devlin et al. 2019). Deze state-of-the-art techniek, vrijgegeven door Google in 2019, biedt de mogelijkheid om contextueel betekenis uit stukken teksten te halen om deze te vergelijken met de omschrijving van de ISCO-codes om de meest passende ISCO-code te vinden.
Uiteindelijk hebben we een lijst opgeleverd met passende ISCO-codes op alle vragen waarop ook een menselijke random (dubbele) validatie op plaatsvindt ter verificatie van correctheid. In principe kan tekst-matching en het coderen, clusteren en categoriseren van topics toegepast worden op allerlei verschillende soorten teksten.