Automatyzacja przeglądarek
Headless i headful orkiestracja odporna na zmiany DOM, CAPTCHA i limity rate. Playwright, Puppeteer i nasza warstwa odporności.
Agenci celowani na zadanie — przeglądają, rozumują, działają. Projektujemy tool use, pamięć i guardrails tak, żeby agent wykonał pracę, nie odegrał ją.
Agent AI to nie chatbot z wrapperem na OpenAI. To autonomiczny system, który dostaje cel, ma dostęp do narzędzi (przeglądarka, API, baza, e-mail, kod), prowadzi pamięć stanu i sam decyduje, jaki ruch wykona dalej. Budujemy agentów do badań rynkowych, enrichmentu danych, monitoringu konkurencji, obsługi zgłoszeń i operacji wewnętrznych — wszędzie tam, gdzie zadanie wymaga rozumowania, ale jest powtarzalne.
Większość projektów „agentowych" które widzimy w praktyce to opasłe prompty wciskane w GPT i nadzieja, że coś wyjdzie. Nasza praca zaczyna się od projektu narzędzi: co agent może wywołać, jakimi argumentami, jakie są ograniczenia, co zwraca. To zwykła specyfikacja funkcji — tyle, że jej użytkownikiem jest model językowy.
Pracujemy głównie na Claude (Anthropic) ze względu na jakość tool use i przewidywalność. Tam gdzie potrzebny jest tańszy szybki model — GPT-4o-mini lub własne deployment open-source na Modal/Replicate.
Agent bez pamięci jest losowy. Implementujemy trzy warstwy stanu: short-term (kontekst zadania, w prompcie), working memory (Redis, kasowana między sesjami) i long-term (Postgres + wektorowe wyszukiwanie, persistentne).
Guardrails są kluczowe. Każdy agent ma listę dozwolonych narzędzi, listę dozwolonych domen, limit kosztu na zadanie, limit czasu, i human-in-the-loop checkpointy dla akcji wysokiego ryzyka. Bez tego pierwszy bad call zamienia 200 USD/dzień w 20 000 USD/dzień.
Każdy agent który wchodzi na produkcję ma reprezentatywny zbiór ewaluacyjny: 50–500 przypadków, ręcznie zoceniona prawda terenowa, metryki sukcesu zdefiniowane z klientem. Zmiana promptu, modelu, czy narzędzia musi przejść ewaluację zanim wejdzie. To jest standard inżynierski, nie luksus.
ChatGPT odpowiada na pytania. Nasz agent wykonuje zadanie: otwiera przeglądarki, czyta strony, wywołuje API, zapisuje do bazy, wysyła raport. ChatGPT to interfejs do modelu. Agent to system, w którym model jest jednym z komponentów.
Koszt operacyjny: 0.10–5.00 USD za zadanie zależnie od skomplikowania (liczby kroków, użytego modelu, długości kontekstu). Koszt wdrożenia: 25–80k PLN dla pojedynczego use case'u, więcej dla wieloagentowych systemów.
Może, ale nie domyślnie. Akcje wysokiego ryzyka (wydatki, komunikacja zewnętrzna, modyfikacja danych klientów) są zawsze za checkpointem człowieka — chyba że klient świadomie zdejmie ten checkpoint po fazie testów.
Zdarza się. Dlatego ewaluacja, guardrails, limity i logi. Każde wywołanie jest audytowalne, każda akcja jest cofalna (gdzie to fizycznie możliwe), i każdy agent ma kill switch. Bezpieczeństwo jest nie dodatkiem, jest częścią architektury.
Headless i headful orkiestracja odporna na zmiany DOM, CAPTCHA i limity rate. Playwright, Puppeteer i nasza warstwa odporności.
Produkcyjne pipeline'y od jednego źródła po tysiące. Rotacja proxy, walidacja schematów, dedup, change detection i ustrukturyzowana dostawa danych.
Orkiestracja wielu kont, harmonogramowanie, pętle zaangażowania i analityka. Compliant, bezpieczna dla kont, zbudowana do skali ponad jednego operatora.
Krótka rozmowa o tym, co chcesz zautomatyzować. Wycena w 5 dniach roboczych.