Ingediend door Arnout op
Webscraping - ETL

Web scraping is een krachtige manier om snel en betrouwbaar grote hoeveelheden publiek beschikbare informatie te verzamelen. Toch bestaan er veel misverstanden over wat kan en mag. In dit artikel toon ik aan de hand van een praktisch voorbeeld hoe ik web scraping gebruik én toon ik met een case van De Gouden Gids waarom ethiek hierin cruciaal is.

🧩 Wat is web scraping?

Web scraping betekent dat een script automatisch informatie leest van webpagina’s, zoals bedrijfsgegevens, productinfo, contactinfo, vacatures of andere (geografische) data. Het bespaart tijd, voorkomt fouten en maakt processen herhaalbaar. Scraping is geen hacking maar moet steeds binnen de grenzen van gezond verstand gebruikt worden. De Gouden Gids is een mooi voorbeeld van waarom ethiek in scraping zo belangrijk is.

📘 Casestudy: De Gouden Gids

De Gouden Gids bevat een bron aan informatie. Stel dat je als beginnende B2B ondernemer op zoek bent naar de gegevens van specifieke types van ondernemingen die op de Gouden Gids gepubliceerd staan en deze wil gebruiken voor prospectie- of andere doeleinden. Dit is informatie die vaak over tientallen pagina's verspreidt staat. Je zou kunnen kiezen om alle profielpagina's van jouw doelgroep manueel te overlopen om die informatie te capteren. Maar zo een manueel proces is langdurig en bovendien niet geschikt voor herhaling. Met een script kan je zo een taak geautomatiseerd uitvoeren. Bijkomend voordeel is dat eens je een script hebt, je dit zo vaak als je wil opnieuw kan uitvoeren zonder bijkomende moeite. 

Aan de slag dus. Aan de oppervlakte lijkt hun data eenvoudig te verzamelen: via Inspect Element (F12) zie je dat bedrijfslijsten worden opgehaald via een interne API die JSON teruggeeft. Maar die API is niet publiek toegankelijk en dus bedoeld voor intern gebruik door hun eigen website. Dit is een eerste aanwijzing dat, alhoewel hun data publiek beschikbaar is, het scrapen van informatie in bulk vanaf deze website iets is wat de onderneming niet wil.

1. Een eerste test met Puppeteer

Met een eenvoudig Node.js-script (Puppeteer) kunnen we de gegevens alsnog achterhalen door na te gaan in veld 'ID_veld' gegevens zoals adres en email terechtkomen. Dit werkt enkele keren perfect. De resultaten worden netjes geladen en alle elementen verschijnen zoals verwacht.

📷 Afbeelding 

Na enkele requests grijpt hun anti-bot firewall in en verschijnt een duidelijke melding: de website detecteert dat een geautomatiseerd script aan het werk is en blokkeert de toegang.

Technisch is het perfect mogelijk om deze blokkade te omzeilen. we zouden enkele eventListeners kunnen toevoegen zoals delays, page scrolls, zodat we menselijk gedrag nabootsen en minder snel door antibot mechanismen zouden worden tegengehouden. Of werken via user-agent-rotatie, vertraagde requests, proxies of headless-browsermaskering. Maar het spreekt voor zich dat dit geen goede praktijk is. Wanneer een website actief laat weten dat scraping ongewenst is, moet je stoppen. Dat is zowel juridisch als professioneel de enige juiste keuze.

📷 Afbeelding 2 – botpagina van De Gouden Gids

 

✔ Waar ik mee help

Ik ondersteun organisaties bij het veilig en legaal verzamelen van gegevens die bedoeld zijn om publiek zichtbaar te zijn. Denk aan:

  • Automatiseren van scraping binnen wettelijke en technische grenzen
  • Respecteren van robots.txt, limieten en voorwaarden
  • Veilig opzetten van ETL-workflows (Extract – Transform – Load)
  • Open data integreren (Vlaanderen, Statbel, Inspire, enz.)
  • Repetitieve datataken automatiseren via Python of Node.js

❌ Wat ik niet doe

Sommige websites maken hun data wel zichtbaar, maar willen die niet in bulk laten harvesten. Zij beschermen zich met firewalls, anti-bot systemen of afgeschermde API’s. Wanneer zo’n bedrijf duidelijk aangeeft dat scraping ongewenst is, stopt het.

🤝 Hoe ik wel kan helpen

Via scripting kan je tijdswinst creëren door processen te automatiseren: open data harvesten, koppelingen maken, ETL-workflows bouwen, dashboards voeden, geografische datasets verwerken en meer.

Je krijgt een oplossing die veilig, schaalbaar en juridisch correct is – volledig op maat van jouw organisatie.

Meer weten over scraping?

Wil je weten over de mogelijkheden op maat van jouw noden? Ik help je graag verder.

Neem contact op →