Web scraping to proces automatycznego pobierania danych ze stron internetowych i ich strukturalizacji do dalszego użycia. Dwa główne podejścia:
- HTTP scraping — bezpośrednie requesty (curl, Python requests, axios). Szybki, tani, ale działa tylko na statycznych stronach bez JS rendering.
- Browser scraping — przez browser automation (Playwright, Puppeteer). Wolniejszy i droższy, ale działa wszędzie.
Legalność: publiczne dane biznesowe — zwykle legalne (precedens hiQ Labs vs LinkedIn). Personal data, prywatne treści, ToS violations — szare strefy lub jasno nielegalne. Patrz nasz przewodnik GDPR vs scraping.
Typowe wyzwania:
- Anti-bot detection (Cloudflare, Akamai, Datadome, PerimeterX)
- Rate limiting i IP blocking
- Selector drift (parser breakage gdy strona się zmienia)
- JavaScript-rendered content
- CAPTCHA
Production-grade scraping wymaga retry logic, monitoring, proxy rotation i schema validation — nie wystarczy "fetch + parse".