Terminal-Bench 2.0
Terminal-Bench 2.0 je „hard“ benchmark (sada úloh + hodnotiaci harness), ktorý meria, ako dobre si AI agent poradí s reálnymi, viac-krokovými úlohami priamo v termináli / CLI. Nejde o písanie textu či kódu na papieri – agent musí naozaj vykonávať príkazy, pracovať so súbormi, buildovať, debugovať, nastavovať služby a prejsť verifikačnými testami v izolovaných kontajneroch.
Čo je na Terminal-Bench 2.0 podstatné
Reálne „end-to-end“ workflowy (terminal mastery):
- úlohy sú navrhnuté tak, aby pripomínali bežnú prax (engineering, data, DevOps, automatizácia), nie len „answer-the-question“.
89 kurátorsky vybraných náročných úloh:
- každá úloha má vlastné prostredie a jasnú, testami overiteľnú definíciu úspechu.
Dôraz na kvalitu a stabilitu úloh (vyššia verifikácia než v 1.0):
- 2.0 vznikla aj preto, aby sa eliminovali problémy typu „funguje dnes, zajtra nie“ pri externých závislostiach.
Objektívne skórovanie:
- typicky 0/1 (prešiel/neprešiel) na úrovni úlohy, výsledkom je success-rate a porovnateľnosť medzi agentmi.
Ekosystém okolo toho:
- leaderboardy, reprodukovateľné behy v kontajneroch, a oficiálny harness Harbor na škálovanie a experimenty.
Ako to funguje (high-level)
Úloha (task) obvykle obsahuje:
zadanie v prirodzenom jazyku,
kontajnerizované prostredie (sandbox),
testy na overenie výsledku,
referenčné („oracle“) riešenie na validáciu.
Hodnotiaci harness spustí agenta v prostredí, agent vykonáva kroky v termináli a na konci prebehnú testy.
Pre Terminal-Bench 2.0 sa ako odporúčaný/„oficiálny“ spôsob spúšťania často používa Harbor (umožňuje lokálny Docker aj cloudové škálovanie).
Technické detaily (prakticky užitočné veci)
Spúšťanie lokálne:
- typicky potrebuješ
Dockera Python tooling (pipalebouv).
- typicky potrebuješ
Paralelizácia:
- bežíš viac úloh naraz parametrom typu
--n-concurrent(výrazne ovplyvní čas aj cenu).
- bežíš viac úloh naraz parametrom typu
Model/provider kľúče:
- pri komerčných modeloch nastavuješ API kľúče cez env premenné (napr.
ANTHROPIC_API_KEY, atď.).
- pri komerčných modeloch nastavuješ API kľúče cez env premenné (napr.
Dataset identifikácia:
- v Harbor štýle sa používa tvar ako
terminal-bench@2.0.
- v Harbor štýle sa používa tvar ako
Dostupnosť
Web/Dokumentácia/Leaderboardy: verejne dostupné cez stránku projektu.
Open-source repozitáre:
terminal-bench(ekosystém, úlohy, CLI/harness pre pôvodnú vetvu)harbor(framework na spúšťanie evalov a škálovanie kontajnerových behov)
Integrácie v eval frameworkoch:
- napr. existuje integrácia v „Inspect Evals“ ekosystéme, kde sa dá Terminal-Bench 2.0 spúšťať ako balík evalov.
Ceny / licencie
Kód (harness/framework) je dostupný ako open-source (typicky Apache-2.0).
Reálne náklady pri benchmarkovaní často nevznikajú licenčne, ale:
API usage (ak používaš platené modely),
compute (ak škáluješ kontajnery lokálne alebo v cloude).
Bezpečnosť a súkromie (čo si strážiť)
Aj keď sú úlohy v sandboxe, stále ide o spúšťanie príkazov a práce so systémom:
nepúšťaj to v prostredí, kde má agent prístup k reálnym secretom,
izoluj API kľúče a nastav minimálne oprávnenia,
dávaj pozor na sieťové prístupy (egress), ak ich prostredie povoľuje,
logy z behov môžu obsahovať citlivé kúsky (cesty, výpisy, tokeny v chybách) – sanitizuj pred zdieľaním.
Quick Reference (typické použitie)
Inštalácia (Harbor):
pip install harboralebouv tool install harborZistenie datasetov:
harbor datasets listSpustenie Terminal-Bench 2.0 (šablóna):
harbor run --dataset terminal-bench@2.0 --agent <agent> --model <model> --n-concurrent <N>
Help:
harbor run --help
Zhrnutie
Terminal-Bench 2.0 je benchmark na meranie, či agent zvláda reálne terminálové úlohy s jasnou verifikáciou testami.
Stavia na kontajneroch a objektívnom skórovaní, pričom 2.0 kladie dôraz na vyššiu náročnosť a lepšiu kvalitu/overenie úloh.
Na spúšťanie a škálovanie sa často používa Harbor, ktorý umožňuje evaly lokálne aj vo veľkom v cloude.