OPS-24-B1Marketplace Scraping

Real-time monitoring cen na 1 200 marketplace'ach

Odporny scraping z anti-bot routingiem, normalizacja SKU i webhooki o zmianie ceny w 5 minut, wpięte w silnik repricingu klienta.

2.1Mproduktów/dzień
Sektor
E-commerce
Powierzchnie
Browser · Data · Webhooks
Czas pracy
22 miesiące autonomicznie
Opublikowano
2024-03-04

Wyzwanie

Klient — duża firma e-commerce z prywatnym portfolio 50 marek własnych — potrzebował widoku cen swoich produktów i bezpośredniej konkurencji na 1 200+ marketplace'ach w EU i US. Wcześniej kupowali dane od dwóch providerów. Problemy: opóźnienie 24h (cykl zmiany ceny u nich to godziny), niska pokrywa SKU (~65%), brak wglądu w jakość danych, koszt 38k EUR/mies.

Cel: monitoring 2M+ produktów dziennie, opóźnienie <5 minut od zmiany ceny u źródła do webhook'a w silniku repricingu, pokrycie SKU >95%, koszt operacyjny <15k EUR/mies.

Podejście

Architektura trzywarstwowa. Layer scrapingu: 480 worker'ów Playwright w Kubernetes na trzech regionach (EU-West, EU-Central, US-East), każdy z izolowanym fingerprintem i własną pulą residential proxies. Distribution per marketplace zoptymalizowane pod ich indywidualne rate limity i wzorce wykrywania.

Layer normalizacji: SKU matching przez kombinację EAN/UPC/MPN, fuzzy matching nazw (Levenshtein + embedding similarity dla nietypowych przypadków), kanoniczny graf produktów w Postgres z 18M węzłów. Każdy nowy rekord trafia do tego grafu — albo jako match do istniejącego SKU, albo jako nowy węzeł.

Layer dostawy: change detection na każdym rekordzie, webhooki w mniej niż 5 minut od zmiany (większość <90 sekund), batch export do S3 w Parquet każdą godzinę, dashboard w Next.js dla analityków klienta.

Wynik

Pokrycie SKU: 97.2%. Mediana czasu wykrycia zmiany ceny: 84 sekundy. Koszt operacyjny: 11 800 EUR/mies (proxy, infra, LLM dla edge cases).

Klient zaoszczędził 26k EUR/mies versus poprzednich providerów, zyskał 23-krotnie krótsze opóźnienie i pokrycie SKU ponad 30 punktów procentowych wyżej.

System przeżył dwie aktualizacje silnika anti-bot Cloudflare w 2024 (każdorazowo łatany w mniej niż 6h od wykrycia), oraz pełną migrację UI Amazon EU w sierpniu 2025 (łatka w 18h przy use case backupu API).

Stack

PlaywrightKubernetesBright Data + OxylabsPostgresS3 + ParquetTemporalNext.jsGrafana

Wskaźniki

  • 2.1MProdukty/dzień
  • 1 200+Marketplace'ów
  • 84sMediana opóźnienia
  • 97.2%Pokrycie SKU
  • −68%Oszczędność vs prior
  • 99.94%Uptime
Podobny problem w Twojej firmie?

Każdy projekt jest inny, ale wzorce się powtarzają.

Jeśli rozpoznajesz fragmenty tego case study u siebie — napisz. Zwykle widzimy w pierwszym callu, czy to skala godzin tygodniowo, czy infrastruktura na miesiące.