Websites bevatten heel veel nuttige informatie, zoals openstaande posities op vacaturesites, publieke opinies op social media, of ticketprijzen en reistijden bij vervoersbedrijven. Ook voor onderzoek, toezicht (bijvoorbeeld van de overheid) en audits van bedrijven is informatie uit websites soms cruciaal.
Vaak is de enige manier om aan deze (online) informatie te komen door deze rechtstreeks van de websites af te halen. Als dat handmatig gebeurt, is dat erg tijdrovend en inefficiënt. Steeds meer partijen zetten daarom webscraping in: een computertechniek waarbij software wordt gebruikt om informatie van webpagina’s geautomatiseerd te extraheren.
Het webscrapingproces omvat meerdere technieken voor het doorzoeken en het ontleden van websites en ook het gestructureerd opslaan van gegevens. Dat opslaan van specifieke gegevens gebeurt doorgaans in een database of spreadsheet, waarna de informatie verder gebruikt en geanalyseerd kan worden.
Enorme tijdswinst
Een groot voordeel van webscraping is de snelheid. Waar het handmatig extraheren van specifieke informatie uit websites niet meer dan een paar honderd keer per dag gedaan kan worden, versnelt een volledig geautomatiseerd proces dit tot tienduizenden keren per dag. De code hiervoor kan in een paar uur geschreven worden. De enorme tijdswinst, in combinatie met de mogelijkheid tot het sorteren, gestructureerd samenbrengen en opslaan van data, maakt webscraping tot een ideale, en soms ook de enige realistische manier om grote hoeveelheden gegevens uit websites te halen.
Naast het snel extraheren van nuttige informatie uit websites kent webscraping ook tal van andere toepassingsmogelijkheden, zoals het automatisch testen van websites op veiligheid, fouten of op missende onderdelen.
Over het algemeen is webscraping uiterst geschikt om repetitieve, administratieve (handmatige) taken van online bronnen te elimineren en het dataverzamelingsproces te versnellen.
Combineren met andere technieken
Niet alleen websites, maar ook allerlei online documenten (zoals PDF’s, DOC’s, XML’s) kunnen met webscraping geautomatiseerd worden doorgespit. Om hoogwaardige informatie te extraheren uit teksten en documenten wordt webscraping doorgaans gecombineerd met text mining en text analytics. Deze technieken maken het mogelijk om op hoge snelheid relevante informatie en patronen te onttrekken uit grote hoeveelheden tekstmateriaal.
Ook de online vergaarde documenten, zoals gescande PDFs, kunnen ontleed worden via OCR technieken.
Voorbeeldprojecten
We scrapen regelmatig publiek toegankelijke websites en online registers voor toezichthouders en auditbedrijven. Ook passen we het toe bij projecten gericht op het opsporen van criminaliteit en ondermijning. Er gaat altijd eerst een privacycheck aan vooraf, inclusief een toetsing van de algemene voorwaarden van websites wat wel en niet mag.