Web scraping i ekstrakcja danych
Produkcyjne pipeline'y od jednego źródła po tysiące. Rotacja proxy, walidacja schematów, dedup, change detection i ustrukturyzowana dostawa danych.
Headless i headful orkiestracja odporna na zmiany DOM, CAPTCHA i limity rate. Playwright, Puppeteer i nasza warstwa odporności.
Automatyzacja przeglądarek to nie skrypt. To system, który musi przeżyć aktualizację frontu klienta, dziesięć tysięcy sesji dziennie, podmianę selektora i awarię proxy — bez budzenia człowieka. Tak budujemy automatyzacje przeglądarek od czterech lat: produkcyjnie, na Playwright lub Puppeteer, z warstwą odporności, której się nie improwizuje.
Każda automatyzacja, którą wdrażamy, ma trzy warstwy: kontroler (logika biznesowa), runtime (pool przeglądarek z auto-skalowaniem) i obserwowalność (logi strukturalne, metryki, alerty). Tę architekturę uruchamiamy na Kubernetes, Fly.io albo dedykowanej infrastrukturze klienta — zależnie od skali i wymogów compliance.
Sesje izolujemy per fingerprint. Każda przeglądarka ma własny kontekst, własne ciasteczka, własny proxy. Pool zarządza recyklingiem instancji, retry z backoff i automatycznym fail-overem na zapasową pulę proxy, gdy podstawowa zostaje zablokowana.
Cloudflare, Akamai, DataDome, PerimeterX, hCaptcha, reCAPTCHA — z każdym z tych systemów się mierzyliśmy. Strategia zależy od targetu: czasem wystarczy poprawna heurystyka fingerprintu i timing, czasem konieczna jest integracja z solverem, czasem trzeba przejść na API ukryte za UI. Decydujemy na bazie ekonomiki: ile kosztuje sesja, ile musi przetwarzać dziennie, jaki jest budżet czasu.
Nie sprzedajemy magii. Sprzedajemy odporną architekturę i jasne kontrakty wydajnościowe — wpisane w SLA jeśli klient tego potrzebuje.
Każda sesja generuje logi strukturalne, metryki czasów odpowiedzi, screenshoty kluczowych kroków i ślady błędów. Grafana albo Datadog (do wyboru) pokazują w czasie rzeczywistym co się dzieje. Alerty trafiają tam, gdzie powinny — Slack, PagerDuty, e-mail — z konkretną informacją, nie generycznym „something failed".
W większości przypadków tak. Scrapowanie publicznie dostępnych danych jest zgodne z prawem w Polsce i UE, jeśli respektuje warunki ToS, prawa autorskie i RODO. Doradzamy klientom na etapie scopu — jeśli coś budzi wątpliwości prawne, mówimy to wprost i sugerujemy alternatywę.
Pilot z jedną automatyzacją: 2–3 tygodnie. Pełny system produkcyjny z obserwowalnością i SLA: 6–10 tygodni. Architekturę walidujemy w fazie spike'u (1–2 tygodnie), żeby uniknąć niespodzianek później.
Wbudowujemy DOM-diff detection i automatyczne fallback selectors. Większość zmian system łata sam. Te, które wymagają interwencji, generują alert — i jeśli klient ma pakiet utrzymania, łatamy je w godzinach SLA.
Zależy od skali. Małe automatyzacje (< 10k sesji/dzień): 100–500 USD/mies. Duże pipeline'y (1M+ sesji/dzień): od 2–5k USD/mies. Pomagamy zoptymalizować budżet — często da się zejść 40% poprzez mądre routowanie i caching.
Tak. Allegro, OLX, Otomoto, Pracuj.pl, Doceń, Wykop, Empik, Pyszne.pl, Pepper, Komputronik, X-kom — większość polskich serwisów mamy w portfolio. Każdy ma swoją specyfikę.
Produkcyjne pipeline'y od jednego źródła po tysiące. Rotacja proxy, walidacja schematów, dedup, change detection i ustrukturyzowana dostawa danych.
Agenci celowani na zadanie — przeglądają, rozumują, działają. Projektujemy tool use, pamięć i guardrails tak, żeby agent wykonał pracę, nie odegrał ją.
Orkiestracja wielu kont, harmonogramowanie, pętle zaangażowania i analityka. Compliant, bezpieczna dla kont, zbudowana do skali ponad jednego operatora.
Krótka rozmowa o tym, co chcesz zautomatyzować. Wycena w 5 dniach roboczych.