トークンのコストではなく、タスクの実行コストで計算しているのが興味深い。
Gemini 3.5 Flash just hit a very awkward benchmark moment.
Terminal-Bench 2.0:
same accuracy as Gemini 3.1 Pro Preview
67.42%
But cost per test?
$1.19 vs $0.52
“Flash” is faster… but somehow less efficient. bruh ⚡