Terminal-Bench 2.0

Terminal-Bench 2.0 je „hard“ benchmark (sada úloh + hodnotiaci harness), ktorý meria, ako dobre si AI agent poradí s reálnymi, viac-krokovými úlohami priamo v termináli / CLI. Nejde o písanie textu či kódu na papieri – agent musí naozaj vykonávať príkazy, pracovať so súbormi, buildovať, debugovať, nastavovať služby a prejsť verifikačnými testami v izolovaných kontajneroch.

Čo je na Terminal-Bench 2.0 podstatné

Reálne „end-to-end“ workflowy (terminal mastery):
- úlohy sú navrhnuté tak, aby pripomínali bežnú prax (engineering, data, DevOps, automatizácia), nie len „answer-the-question“.
89 kurátorsky vybraných náročných úloh:
- každá úloha má vlastné prostredie a jasnú, testami overiteľnú definíciu úspechu.
Dôraz na kvalitu a stabilitu úloh (vyššia verifikácia než v 1.0):
- 2.0 vznikla aj preto, aby sa eliminovali problémy typu „funguje dnes, zajtra nie“ pri externých závislostiach.
Objektívne skórovanie:
- typicky 0/1 (prešiel/neprešiel) na úrovni úlohy, výsledkom je success-rate a porovnateľnosť medzi agentmi.
Ekosystém okolo toho:
- leaderboardy, reprodukovateľné behy v kontajneroch, a oficiálny harness Harbor na škálovanie a experimenty.

Ako to funguje (high-level)

Úloha (task) obvykle obsahuje:
- zadanie v prirodzenom jazyku,
- kontajnerizované prostredie (sandbox),
- testy na overenie výsledku,
- referenčné („oracle“) riešenie na validáciu.
Hodnotiaci harness spustí agenta v prostredí, agent vykonáva kroky v termináli a na konci prebehnú testy.
Pre Terminal-Bench 2.0 sa ako odporúčaný/„oficiálny“ spôsob spúšťania často používa Harbor (umožňuje lokálny Docker aj cloudové škálovanie).

Technické detaily (prakticky užitočné veci)

Spúšťanie lokálne:
- typicky potrebuješ Docker a Python tooling (pip alebo uv).
Paralelizácia:
- bežíš viac úloh naraz parametrom typu --n-concurrent (výrazne ovplyvní čas aj cenu).
Model/provider kľúče:
- pri komerčných modeloch nastavuješ API kľúče cez env premenné (napr. ANTHROPIC_API_KEY, atď.).
Dataset identifikácia:
- v Harbor štýle sa používa tvar ako terminal-bench@2.0.

Dostupnosť

Web/Dokumentácia/Leaderboardy: verejne dostupné cez stránku projektu.
Open-source repozitáre:
- terminal-bench (ekosystém, úlohy, CLI/harness pre pôvodnú vetvu)
- harbor (framework na spúšťanie evalov a škálovanie kontajnerových behov)
Integrácie v eval frameworkoch:
- napr. existuje integrácia v „Inspect Evals“ ekosystéme, kde sa dá Terminal-Bench 2.0 spúšťať ako balík evalov.

Ceny / licencie

Kód (harness/framework) je dostupný ako open-source (typicky Apache-2.0).
Reálne náklady pri benchmarkovaní často nevznikajú licenčne, ale:
- API usage (ak používaš platené modely),
- compute (ak škáluješ kontajnery lokálne alebo v cloude).

Bezpečnosť a súkromie (čo si strážiť)

Aj keď sú úlohy v sandboxe, stále ide o spúšťanie príkazov a práce so systémom:
- nepúšťaj to v prostredí, kde má agent prístup k reálnym secretom,
- izoluj API kľúče a nastav minimálne oprávnenia,
- dávaj pozor na sieťové prístupy (egress), ak ich prostredie povoľuje,
- logy z behov môžu obsahovať citlivé kúsky (cesty, výpisy, tokeny v chybách) – sanitizuj pred zdieľaním.

Quick Reference (typické použitie)

Inštalácia (Harbor): pip install harbor alebo uv tool install harbor
Zistenie datasetov: harbor datasets list
Spustenie Terminal-Bench 2.0 (šablóna):
- harbor run --dataset terminal-bench@2.0 --agent <agent> --model <model> --n-concurrent <N>
Help: harbor run --help

Zhrnutie

Terminal-Bench 2.0 je benchmark na meranie, či agent zvláda reálne terminálové úlohy s jasnou verifikáciou testami.
Stavia na kontajneroch a objektívnom skórovaní, pričom 2.0 kladie dôraz na vyššiu náročnosť a lepšiu kvalitu/overenie úloh.
Na spúšťanie a škálovanie sa často používa Harbor, ktorý umožňuje evaly lokálne aj vo veľkom v cloude.