Wszystkie production scrapery używają proxy. Nie żeby ukrywać tożsamość — żeby nie wyglądać podejrzanie dla anti-bot systems. Dwa główne typy mają różną cenę i różne use case'y. Wybór nie jest oczywisty.
Datacenter proxy: tanio, masowo, łatwo wykrywalne. Residential proxy: drożej, prawdziwe IP, trudniej wykrywalne. Większość projektów potrzebuje hybrydy.
Datacenter proxy — co to jest
IP z dataenterów AWS / Google Cloud / DigitalOcean / Hetzner. Tysiące adresów, dostępne natychmiast, tanie. Cena: $1-5 / GB ruchu u największych providerów (Bright Data, Smartproxy, IPRoyal).
Problem: anti-bot systems wiedzą że Bob z Bydgoszczy nie surfuje internetu z AWS Frankfurt. Detection rate dla protected sites: typowo 60-95% blocked.
Dobre do:
- Niezabezpieczone strony (gov portale, prosty html, brak Cloudflare)
- API endpoints bez agresywnego rate limiting
- Strony gdzie target nie ma resources na anti-bot (małe sklepy, blogi)
- High-volume low-value scraping (np. monitoring 1M produktów z amazonów Trump)
Residential proxy — co to jest
IP od prawdziwych ISP (Orange, T-Mobile, Comcast, Vodafone). Routowane przez urządzenia użytkowników którzy zainstalowali "free VPN" lub "browser extension" w zamian za użyczenie IP. Kontrowersyjne ale legalne.
Cena: $5-15 / GB u premium providerów (Bright Data, Oxylabs, Smartproxy residential). Czasem do $25/GB dla najlepszej jakości (sticky sessions, fresh IP rotation).
Wygląda jak normalny user. Detection rate dla Cloudflare protected: typowo 5-25% blocked. Dla PerimeterX / Akamai: 15-50% blocked.
Dobre do:
- E-commerce premium (Nike, Adidas, większość fashion)
- Social media (LinkedIn, Instagram, X)
- Banking / fintech / SaaS z aggressive anti-bot
- Sneaker drops, ticketing, hype products
- Strony z geo-restrictions (potrzebne IP konkretnego kraju)
Mobile proxy — premium tier
Bonus kategoria: IP z mobile carriers (4G/5G LTE). Najtrudniejsze do detekcji bo carriers używają carrier-grade NAT (tysiące prawdziwych użytkowników share to samo IP).
Cena: $20-60 / GB. Wolniejsze niż residential, ale niemal niewykrywalne. Używane gdy nawet residential dostaje rate limit'y — typowo gaming, sneakers, top retail.
Decision matrix
Wybór per target:
- Datacenter — gov, BIP, eZamówienia, mali e-commerce, większość RSS/sitemap workflows
- Residential — premium e-commerce, social, większość B2C, geo-targeting
- Mobile — gdy residential blocked / rate-limited, sneakers, ticketing, gaming
Większość projektów: hybryda. Tańsze targety przez datacenter, droższe przez residential. Routing logic w kodzie automatycznie wybiera.
Hidden cost: bandwidth
Proxy cost = price/GB × actual bandwidth. Strony heavy (Nike z 5 MB JS) zużywają więcej niż lekkie (mały sklep z 200 KB HTML).
Praktyczny rachunek dla monitoringu 100 SKUs daily:
- Lekka strona (~200 KB / request): 100 × 200 KB = 20 MB/dzień × 30 dni = 600 MB/mies = $3-9/mies (residential)
- Średnia (~1 MB / request): 100 × 1 MB = 100 MB/dzień × 30 = 3 GB/mies = $15-45/mies (residential)
- Heavy (~5 MB / request z JS): 500 MB/dzień × 30 = 15 GB/mies = $75-225/mies (residential)
Plus retry overhead — jeśli 20% requestów failuje, mnożysz przez 1.2-1.5×.
Praktyczne tips dla zamawiającego
- Zapytaj o proxy strategy przed signing — który typ, który provider, estimated bandwidth/mies
- Cap monthly bandwidth w umowie — żeby nie dostać surprise invoice za $2000
- Audyt cost po pierwszym miesiącu — bandwidth często wyższy niż estimate
- Geo requirements wpisz w brief — jeśli musisz scrape'ować z konkretnego kraju, mention explicitly
Sedno
Wybór typu proxy nie jest twoim problemem jako klienta — to problem dostawcy. Ale warto rozumieć co stoi za różnicą cen. Niezabezpieczony target = $1-5/GB, działa. Protected target = $5-15/GB, działa 95%. Mobile-only target = $20-60/GB, działa 80%. Każda kategoria ma sensowne use case'y i sensowne ceny — uważaj na dostawców którzy obiecują "wszystko za $50/mies, dla każdej strony, z 100% accuracy".