System ciągłego pozyskiwania leadów dla B2B SaaS
Codzienna multi-source enrichment 40 000+ kont, sygnały intencji, mapowanie decydentów. Bez ręki na sterze od Q2 2024.
Odporny scraping z anti-bot routingiem, normalizacja SKU i webhooki o zmianie ceny w 5 minut, wpięte w silnik repricingu klienta.
Klient — duża firma e-commerce z prywatnym portfolio 50 marek własnych — potrzebował widoku cen swoich produktów i bezpośredniej konkurencji na 1 200+ marketplace'ach w EU i US. Wcześniej kupowali dane od dwóch providerów. Problemy: opóźnienie 24h (cykl zmiany ceny u nich to godziny), niska pokrywa SKU (~65%), brak wglądu w jakość danych, koszt 38k EUR/mies.
Cel: monitoring 2M+ produktów dziennie, opóźnienie <5 minut od zmiany ceny u źródła do webhook'a w silniku repricingu, pokrycie SKU >95%, koszt operacyjny <15k EUR/mies.
Architektura trzywarstwowa. Layer scrapingu: 480 worker'ów Playwright w Kubernetes na trzech regionach (EU-West, EU-Central, US-East), każdy z izolowanym fingerprintem i własną pulą residential proxies. Distribution per marketplace zoptymalizowane pod ich indywidualne rate limity i wzorce wykrywania.
Layer normalizacji: SKU matching przez kombinację EAN/UPC/MPN, fuzzy matching nazw (Levenshtein + embedding similarity dla nietypowych przypadków), kanoniczny graf produktów w Postgres z 18M węzłów. Każdy nowy rekord trafia do tego grafu — albo jako match do istniejącego SKU, albo jako nowy węzeł.
Layer dostawy: change detection na każdym rekordzie, webhooki w mniej niż 5 minut od zmiany (większość <90 sekund), batch export do S3 w Parquet każdą godzinę, dashboard w Next.js dla analityków klienta.
Pokrycie SKU: 97.2%. Mediana czasu wykrycia zmiany ceny: 84 sekundy. Koszt operacyjny: 11 800 EUR/mies (proxy, infra, LLM dla edge cases).
Klient zaoszczędził 26k EUR/mies versus poprzednich providerów, zyskał 23-krotnie krótsze opóźnienie i pokrycie SKU ponad 30 punktów procentowych wyżej.
System przeżył dwie aktualizacje silnika anti-bot Cloudflare w 2024 (każdorazowo łatany w mniej niż 6h od wykrycia), oraz pełną migrację UI Amazon EU w sierpniu 2025 (łatka w 18h przy use case backupu API).
Codzienna multi-source enrichment 40 000+ kont, sygnały intencji, mapowanie decydentów. Bez ręki na sterze od Q2 2024.
Agent celowany na zadanie, który przeszukuje raporty, prasę, social i źródła wewnętrzne — produkuje ustrukturyzowane briefingi codziennie przed 7 rano czasu wschodniego.
47 kont marek, cztery platformy, jedna konsola operatora. Harmonogramowanie, engagement, analityka i human-in-the-loop review zbudowane end-to-end.
Jeśli rozpoznajesz fragmenty tego case study u siebie — napisz. Zwykle widzimy w pierwszym callu, czy to skala godzin tygodniowo, czy infrastruktura na miesiące.