Automatyzacja przeglądarek
Headless i headful orkiestracja odporna na zmiany DOM, CAPTCHA i limity rate. Playwright, Puppeteer i nasza warstwa odporności.
Produkcyjne pipeline'y od jednego źródła po tysiące. Rotacja proxy, walidacja schematów, dedup, change detection i ustrukturyzowana dostawa danych.
Web scraping w skali produkcyjnej to nie skrypt, który raz na dzień ściąga listę produktów. To pipeline danych: ze źródła, przez transformację, walidację, deduplikację, persistence, aż po dostawę do systemu klienta — z gwarancjami jakości i monitoringiem na każdym etapie. Budujemy takie pipeline'y dla firm e-commerce, fintechu, real estate, mediów i wywiadu rynkowego.
Mniejsze projekty (jeden serwis, kilkaset tysięcy rekordów dziennie) prowadzimy na Scrapy lub Crawl4AI z prostym proxy routingiem przez Bright Data, Oxylabs lub własne pule. Większe — multi-source pipeline'y, gdzie scrapujemy 1000+ targetów równolegle — wymagają orkiestracji w Temporal albo na własnym jobie schedulerze, z izolowanym fingerprintem per target i adaptacyjnym rate limitem.
Każdy rekord przechodzi walidację schematu (Pydantic / Zod), deduplikację (hash-based + fuzzy matching gdy trzeba) i normalizację (kategorie, jednostki, daty, waluty). Tylko te, które przejdą wszystkie bramy, trafiają do storage'u.
Dla klientów, którzy potrzebują wiedzieć o zmianach (zmiana ceny, nowy produkt, zmiana opisu, usunięcie ogłoszenia), nakładamy warstwę diff. Pipeline porównuje aktualny rekord z poprzednim, klasyfikuje zmianę i — jeśli pasuje do reguł klienta — generuje webhook. Repricing engine'y, systemy alertów, dashboardy wywiadu rynkowego — wszystko można podpiąć w kilka godzin.
JSON, Parquet, CSV, PostgreSQL, S3, BigQuery, Snowflake, webhook na własny endpoint, prywatne API z paginacją — zależnie od tego, gdzie dane mają trafić. Większość klientów wybiera dwa formaty: jeden do hot path (webhook), drugi do analityki (Parquet w S3).
Spokojnie kilkaset tysięcy do kilku milionów rekordów dziennie z jednego targetu — przy odpowiednim proxy budgetcie. Największy pipeline który prowadzimy obecnie obsługuje 2.1M produktów dziennie z 1200 marketplace'ów.
Dla danych publicznie dostępnych — tak, jeśli nie są to dane osobowe. Dla danych osobowych (np. dane kontaktowe z LinkedIn) konsultujemy się z prawnikiem klienta i często zalecamy alternatywy zgodne z prawem (np. ZoomInfo API zamiast scrapingu).
Każdy ma swoją specyfikę. Allegro ma stosunkowo proste anti-bot ale agresywne rate limity — łatamy mądrym distribuowaniem ruchu. Amazon ma DataDome i wymaga dobrego fingerprintu. Idealo to GraphQL pod spodem — często schodzimy poniżej UI.
Trzema mechanizmami: walidacja schematu na wejściu, monitoring metryk jakości (completeness, freshness, accuracy) z alertami, i okresowe spot-checki na próbkach. Jeśli jakość spada poniżej progu, pipeline wstrzymuje dostawę i alarmuje.
Headless i headful orkiestracja odporna na zmiany DOM, CAPTCHA i limity rate. Playwright, Puppeteer i nasza warstwa odporności.
Agenci celowani na zadanie — przeglądają, rozumują, działają. Projektujemy tool use, pamięć i guardrails tak, żeby agent wykonał pracę, nie odegrał ją.
Orkiestracja wielu kont, harmonogramowanie, pętle zaangażowania i analityka. Compliant, bezpieczna dla kont, zbudowana do skali ponad jednego operatora.
Krótka rozmowa o tym, co chcesz zautomatyzować. Wycena w 5 dniach roboczych.