3 frameworki evali których AI-Native PM musi używać
Evals to nowa skill PM-ów i większość PM-ów nie zna nawet bazowych wzorców. Pokazuję trzy: LLM-as-judge, factual eval, behavioral eval — każdy z gotowym promptem i rubryką scoringową.
Evals to nowa skill PM-ów i większość PM-ów nie zna nawet bazowych wzorców. Pokazuję trzy: LLM-as-judge, factual eval, behavioral eval — każdy z gotowym promptem i rubryką scoringową.
End-to-end build agenta produkcyjnego: MVP w 30 min, potem evals, monitoring, error handling, retry logic, cost guardrails. Wychodzisz z agentem który nie sypie się o 3 rano.
Standard 2026. Pokazuję jak postawić sędziego od podstaw: dataset, prompt sędziego, rubryka 1-5, calibration na 20 przykładach. Wynik: liczba zamiast feelinga, comparable across deploys.
Workshop dla teamów buildujących AI features. Pełen eval framework: dataset construction, LLM-as-judge library, CI integration, alerting. Pokazujemy jak ewoluują evals przez 6 miesięcy produkcji.
Najbardziej zaniedbany skill. PRD nie wystarczy gdy feature jest agentic — potrzebujesz spec na zachowanie: co agent może robić, czego nie, jak eskaluje, kiedy pyta człowieka. Pokazuję template.
Production-grade workshop. Monitoring stack (Sentry + custom dashboards), drift detection (eval-based), rollback strategy (model + prompt versioning). Po sesji wiesz co robić gdy o 3 rano user dostaje halucynacje.
Real production problem. Model się updatuje, dane się zmieniają, prompt który działał miesiąc temu produkuje teraz śmieci. Pokazuję eval suite + alerting który łapie drift zanim usera dostanie złą odpowiedź.