03Usługi

Agenci AI i boty

Agenci celowani na zadanie — przeglądają, rozumują, działają. Projektujemy tool use, pamięć i guardrails tak, żeby agent wykonał pracę, nie odegrał ją.

Agent AI to nie chatbot z wrapperem na OpenAI. To autonomiczny system, który dostaje cel, ma dostęp do narzędzi (przeglądarka, API, baza, e-mail, kod), prowadzi pamięć stanu i sam decyduje, jaki ruch wykona dalej. Budujemy agentów do badań rynkowych, enrichmentu danych, monitoringu konkurencji, obsługi zgłoszeń i operacji wewnętrznych — wszędzie tam, gdzie zadanie wymaga rozumowania, ale jest powtarzalne.

Tool use, nie prompt engineering

Większość projektów „agentowych" które widzimy w praktyce to opasłe prompty wciskane w GPT i nadzieja, że coś wyjdzie. Nasza praca zaczyna się od projektu narzędzi: co agent może wywołać, jakimi argumentami, jakie są ograniczenia, co zwraca. To zwykła specyfikacja funkcji — tyle, że jej użytkownikiem jest model językowy.

Pracujemy głównie na Claude (Anthropic) ze względu na jakość tool use i przewidywalność. Tam gdzie potrzebny jest tańszy szybki model — GPT-4o-mini lub własne deployment open-source na Modal/Replicate.

Pamięć, stan i guardrails

Agent bez pamięci jest losowy. Implementujemy trzy warstwy stanu: short-term (kontekst zadania, w prompcie), working memory (Redis, kasowana między sesjami) i long-term (Postgres + wektorowe wyszukiwanie, persistentne).

Guardrails są kluczowe. Każdy agent ma listę dozwolonych narzędzi, listę dozwolonych domen, limit kosztu na zadanie, limit czasu, i human-in-the-loop checkpointy dla akcji wysokiego ryzyka. Bez tego pierwszy bad call zamienia 200 USD/dzień w 20 000 USD/dzień.

Ewaluacja, nie wiara

Każdy agent który wchodzi na produkcję ma reprezentatywny zbiór ewaluacyjny: 50–500 przypadków, ręcznie zoceniona prawda terenowa, metryki sukcesu zdefiniowane z klientem. Zmiana promptu, modelu, czy narzędzia musi przejść ewaluację zanim wejdzie. To jest standard inżynierski, nie luksus.

Co dostajesz

  • Produkcyjny agent AI z tool use i pamięcią
  • Definicje narzędzi i kontrakty wywołań
  • System guardrails: limity, dozwolone akcje, human-in-the-loop
  • Zbiór ewaluacyjny i metryki sukcesu
  • Dashboard obserwacyjny: koszt per zadanie, success rate, czas
  • Dokumentacja: prompt, narzędzia, ograniczenia

Stack

Claude (Anthropic)GPT (OpenAI)LangGraphVercel AI SDKPostgres + pgvectorRedisTemporalNode.js / Python

Często zadawane pytania

Czym to się różni od ChatGPT?

ChatGPT odpowiada na pytania. Nasz agent wykonuje zadanie: otwiera przeglądarki, czyta strony, wywołuje API, zapisuje do bazy, wysyła raport. ChatGPT to interfejs do modelu. Agent to system, w którym model jest jednym z komponentów.

Ile kosztuje uruchomienie jednego agenta?

Koszt operacyjny: 0.10–5.00 USD za zadanie zależnie od skomplikowania (liczby kroków, użytego modelu, długości kontekstu). Koszt wdrożenia: 25–80k PLN dla pojedynczego use case'u, więcej dla wieloagentowych systemów.

Czy agent może podejmować decyzje finansowe albo wysyłać e-maile w moim imieniu?

Może, ale nie domyślnie. Akcje wysokiego ryzyka (wydatki, komunikacja zewnętrzna, modyfikacja danych klientów) są zawsze za checkpointem człowieka — chyba że klient świadomie zdejmie ten checkpoint po fazie testów.

Co jeśli agent zrobi coś głupiego?

Zdarza się. Dlatego ewaluacja, guardrails, limity i logi. Każde wywołanie jest audytowalne, każda akcja jest cofalna (gdzie to fizycznie możliwe), i każdy agent ma kill switch. Bezpieczeństwo jest nie dodatkiem, jest częścią architektury.

Porozmawiajmy o Twoim projekcie

Sprawmy, że działa samo.

Krótka rozmowa o tym, co chcesz zautomatyzować. Wycena w 5 dniach roboczych.