Terminal-Bench 2.0

Terminal-Bench 2.0 je „hard“ benchmark (sada úloh + hodnotiaci harness), ktorý meria, ako dobre si AI agent poradí s reálnymi, viac-krokovými úlohami priamo v termináli / CLI. Nejde o písanie textu či kódu na papieri – agent musí naozaj vykonávať príkazy, pracovať so súbormi, buildovať, debugovať, nastavovať služby a prejsť verifikačnými testami v izolovaných kontajneroch.


Čo je na Terminal-Bench 2.0 podstatné

  • Reálne „end-to-end“ workflowy (terminal mastery):

    • úlohy sú navrhnuté tak, aby pripomínali bežnú prax (engineering, data, DevOps, automatizácia), nie len „answer-the-question“.
  • 89 kurátorsky vybraných náročných úloh:

    • každá úloha má vlastné prostredie a jasnú, testami overiteľnú definíciu úspechu.
  • Dôraz na kvalitu a stabilitu úloh (vyššia verifikácia než v 1.0):

    • 2.0 vznikla aj preto, aby sa eliminovali problémy typu „funguje dnes, zajtra nie“ pri externých závislostiach.
  • Objektívne skórovanie:

    • typicky 0/1 (prešiel/neprešiel) na úrovni úlohy, výsledkom je success-rate a porovnateľnosť medzi agentmi.
  • Ekosystém okolo toho:

    • leaderboardy, reprodukovateľné behy v kontajneroch, a oficiálny harness Harbor na škálovanie a experimenty.

Ako to funguje (high-level)

  • Úloha (task) obvykle obsahuje:

    • zadanie v prirodzenom jazyku,

    • kontajnerizované prostredie (sandbox),

    • testy na overenie výsledku,

    • referenčné („oracle“) riešenie na validáciu.

  • Hodnotiaci harness spustí agenta v prostredí, agent vykonáva kroky v termináli a na konci prebehnú testy.

  • Pre Terminal-Bench 2.0 sa ako odporúčaný/„oficiálny“ spôsob spúšťania často používa Harbor (umožňuje lokálny Docker aj cloudové škálovanie).


Technické detaily (prakticky užitočné veci)

  • Spúšťanie lokálne:

    • typicky potrebuješ Docker a Python tooling (pip alebo uv).
  • Paralelizácia:

    • bežíš viac úloh naraz parametrom typu --n-concurrent (výrazne ovplyvní čas aj cenu).
  • Model/provider kľúče:

    • pri komerčných modeloch nastavuješ API kľúče cez env premenné (napr. ANTHROPIC_API_KEY, atď.).
  • Dataset identifikácia:

    • v Harbor štýle sa používa tvar ako terminal-bench@2.0.

Dostupnosť

  • Web/Dokumentácia/Leaderboardy: verejne dostupné cez stránku projektu.

  • Open-source repozitáre:

    • terminal-bench (ekosystém, úlohy, CLI/harness pre pôvodnú vetvu)

    • harbor (framework na spúšťanie evalov a škálovanie kontajnerových behov)

  • Integrácie v eval frameworkoch:

    • napr. existuje integrácia v „Inspect Evals“ ekosystéme, kde sa dá Terminal-Bench 2.0 spúšťať ako balík evalov.

Ceny / licencie

  • Kód (harness/framework) je dostupný ako open-source (typicky Apache-2.0).

  • Reálne náklady pri benchmarkovaní často nevznikajú licenčne, ale:

    • API usage (ak používaš platené modely),

    • compute (ak škáluješ kontajnery lokálne alebo v cloude).


Bezpečnosť a súkromie (čo si strážiť)

  • Aj keď sú úlohy v sandboxe, stále ide o spúšťanie príkazov a práce so systémom:

    • nepúšťaj to v prostredí, kde má agent prístup k reálnym secretom,

    • izoluj API kľúče a nastav minimálne oprávnenia,

    • dávaj pozor na sieťové prístupy (egress), ak ich prostredie povoľuje,

    • logy z behov môžu obsahovať citlivé kúsky (cesty, výpisy, tokeny v chybách) – sanitizuj pred zdieľaním.


Quick Reference (typické použitie)

  • Inštalácia (Harbor): pip install harbor alebo uv tool install harbor

  • Zistenie datasetov: harbor datasets list

  • Spustenie Terminal-Bench 2.0 (šablóna):

    • harbor run --dataset terminal-bench@2.0 --agent <agent> --model <model> --n-concurrent <N>
  • Help: harbor run --help


Zhrnutie

  • Terminal-Bench 2.0 je benchmark na meranie, či agent zvláda reálne terminálové úlohy s jasnou verifikáciou testami.

  • Stavia na kontajneroch a objektívnom skórovaní, pričom 2.0 kladie dôraz na vyššiu náročnosť a lepšiu kvalitu/overenie úloh.

  • Na spúšťanie a škálovanie sa často používa Harbor, ktorý umožňuje evaly lokálne aj vo veľkom v cloude.