Build Your First Production Agent: od MVP do reliable system
End-to-end build agenta produkcyjnego: MVP w 30 min, potem evals, monitoring, error handling, retry logic, cost guardrails. Wychodzisz z agentem który nie sypie się o 3 rano.
End-to-end build agenta produkcyjnego: MVP w 30 min, potem evals, monitoring, error handling, retry logic, cost guardrails. Wychodzisz z agentem który nie sypie się o 3 rano.
Standard 2026. Pokazuję jak postawić sędziego od podstaw: dataset, prompt sędziego, rubryka 1-5, calibration na 20 przykładach. Wynik: liczba zamiast feelinga, comparable across deploys.
Workshop dla teamów buildujących AI features. Pełen eval framework: dataset construction, LLM-as-judge library, CI integration, alerting. Pokazujemy jak ewoluują evals przez 6 miesięcy produkcji.
Production-grade workshop. Monitoring stack (Sentry + custom dashboards), drift detection (eval-based), rollback strategy (model + prompt versioning). Po sesji wiesz co robić gdy o 3 rano user dostaje halucynacje.
Real production problem. Model się updatuje, dane się zmieniają, prompt który działał miesiąc temu produkuje teraz śmieci. Pokazuję eval suite + alerting który łapie drift zanim usera dostanie złą odpowiedź.
Popyt na local LLM rośnie (compliance, dane wrażliwe, cost). Pokazuję workflow: Llama 4 na M3 Max jako routerek dla wrażliwych zapytań, Claude na cloud dla reszty. Trzy konkretne use case.