Web scraping | Słownik

Web scraping to proces automatycznego pobierania danych ze stron internetowych i ich strukturalizacji do dalszego użycia. Dwa główne podejścia:

HTTP scraping — bezpośrednie requesty (curl, Python requests, axios). Szybki, tani, ale działa tylko na statycznych stronach bez JS rendering.
Browser scraping — przez browser automation (Playwright, Puppeteer). Wolniejszy i droższy, ale działa wszędzie.

Legalność: publiczne dane biznesowe — zwykle legalne (precedens hiQ Labs vs LinkedIn). Personal data, prywatne treści, ToS violations — szare strefy lub jasno nielegalne. Patrz nasz przewodnik GDPR vs scraping.

Typowe wyzwania:

Anti-bot detection (Cloudflare, Akamai, Datadome, PerimeterX)
Rate limiting i IP blocking
Selector drift (parser breakage gdy strona się zmienia)
JavaScript-rendered content
CAPTCHA

Production-grade scraping wymaga retry logic, monitoring, proxy rotation i schema validation — nie wystarczy "fetch + parse".