System ciągłego pozyskiwania leadów dla B2B SaaS
Codzienna multi-source enrichment 40 000+ kont, sygnały intencji, mapowanie decydentów. Bez ręki na sterze od Q2 2024.
28 job boards, 14 krajów, 3.2M aktywnych ofert. Daily skills + salary trends. SaaS dla HR-tech compass.
HR-tech SaaS klient (€8M ARR, 280 corporate klientów) dostarczał compensation benchmarking i talent acquisition intelligence dla HR teams. Ich differentiator: comprehensive job market data — kto rekrutuje, jakie skills, jakie wynagrodzenia, jakie locations są hot. Klienci używali ich do salary benchmarking, location planning, competitive intelligence.
Stan w 2024: surveys-based methodology, dane aggregated kwartalnie z partner companies. Coverage powolne — corporate clients chcieli odpowiedzi na pytanie "ile zapłacić senior React engineer w Berlinie w tej chwili", ale survey data była 3-6 miesięcy stara, niespójna across firmy, i nie pokazywała granular trends.
Wewnętrzny próba "scrape'ujmy job boards" w 2023 dał chaotyczne wyniki: 8 job boards integrated, ad-hoc parsers, ~40% success rate, dane nie comparable across sources (każdy board reporting salary differently). Po 4 miesiącach klient wstrzymał projekt.
Zaprojektowaliśmy production-grade job market intelligence platform: 28 job boards across 14 EU countries (LinkedIn Jobs API + scrape, Indeed, StepStone, Pracuj.pl, Welcome to the Jungle, niche tech boards jak StackOverflow Jobs, Wellfound i.t.d.).
Critical challenges:
Salary normalization: każdy board reportuje salary differently — "competitive", "from X", range "X-Y", net vs gross, annual vs monthly, with/without benefits. LLM-driven normalization (Claude Haiku dla cost) parsuje text descriptions i ekstrakcjuje canonical "EUR annual gross, salary range, benefits flag".
Skills extraction: NLP pipeline (custom + Claude) wyciąga skills z job descriptions w 8 językach. Normalizacja do ESCO skills taxonomy plus custom skills extended dla tech roles.
Cross-board deduplication: ta sama oferta pojawia się na 5+ boards. Dedup heuristic: company + job title similarity + posting timestamp window + skills overlap.
Architektonicznie: Temporal orchestration, Playwright dla scrape (LinkedIn Jobs via API gdzie possible), Claude Haiku dla NLP normalization (~$0.001 per job parsed), PostgreSQL canonical store, ClickHouse dla time-series analytics, OpenSearch dla full-text job search dla client UI.
3.2M aktywnych job openings monitorowanych daily across 14 EU rynków. Coverage estimate: 87% wszystkich publicly visible openings (mierzone vs ECB/Eurostat data).
Compensation benchmarking accuracy: client raportuje 23% improvement w predicted-vs-actual offer matching (vs survey-based baseline). To znaczy: HR przy negocjacji kandydata używa data z platformy, oferty są bardziej accurate, accept rate up.
Market report time: pre-deployment, custom report dla klienta wymagał 8-12 dni analyst work. Post-deployment: same report generated automatically w 2-4 godziny + analyst review (1-2h). 12× speedup.
Client portfolio rośnie: 280 corporate klientów na start, 412 po 10 miesiącach. ARR wzrosło z €8M do €13.2M. Klient attributes platform jako kluczowy driver.
System operating cost: $14k/mies (LLM + proxy + compute), $4k/mies retainer maintenance. ROI dla klienta: 28× w pierwszym roku post-deployment.
Codzienna multi-source enrichment 40 000+ kont, sygnały intencji, mapowanie decydentów. Bez ręki na sterze od Q2 2024.
Odporny scraping z anti-bot routingiem, normalizacja SKU i webhooki o zmianie ceny w 5 minut, wpięte w silnik repricingu klienta.
Agent celowany na zadanie, który przeszukuje raporty, prasę, social i źródła wewnętrzne — produkuje ustrukturyzowane briefingi codziennie przed 7 rano czasu wschodniego.
Jeśli rozpoznajesz fragmenty tego case study u siebie — napisz. Zwykle widzimy w pierwszym callu, czy to skala godzin tygodniowo, czy infrastruktura na miesiące.