{data.map((item, idx) => { const value = item[valueKey]; const percentage = (value - baselineOffset) / (topValue - baselineOffset) * 80; const isDroid = item[labelKey].toLowerCase().includes('droid') || item[labelKey].toLowerCase().includes('factory'); return

{idx + 1} {item[labelKey]}

{typeof value === 'number' && value % 1 !== 0 ? value.toFixed(1) : value}{valueLabel.includes('%') ? '%' : ''}

; })}

; }; export const terminalBenchData = [{ name: "Factory Droid", model: "Claude Opus 4.5", accuracy: 63.1 }, { name: "OpenAI Codex CLI", model: "GPT-5.1-Codex-Max", accuracy: 60.4 }, { name: "Warp", model: "Claude Opus 4.5", accuracy: 59.1 }, { name: "OpenHands", model: "Gemini 3 Pro", accuracy: 43.8 }, { name: "Anthropic Claude Code", model: "Gemini 3 Pro", accuracy: 40.1 }]; ターミナルベースのインターフェースを使って、実世界のソフトウェアエンジニアリングタスクにおける AI コーディングエージェントを評価する、[tbench.ai](https://www.tbench.ai) のベンチマークです。エージェントがコードベースをどれだけ効果的に探索し、コマンドを実行し、コマンドライン操作を通じて解決策を実装できるかを測定します。 ### 結果 *最終更新: 2025年12月* ### 方法論 | カテゴリ | 説明 | | ------------ | ------------------ | | **コード探索** | 関連するコードを見つけて理解する能力 | | **バグ修正** | 問題の特定と解決 | | **機能実装** | 新しい機能の追加 | | **リファクタリング** | 既存コード構造の改善 | | **テスト** | テストの作成と実行 | タスクは **正確性**、**効率性**、**コード品質** に基づいて評価されます。ライブランキングを確認し、あなたのエージェントを登録する