AIエージェントは職人未満、弟子以上──Agents’ Last Examで見えたGPT-5.5の現在地|Zun-Beho
AIエージェントが幅広い現実世界の領域で実際に経済的に価値のある仕事を実行できるかどうかを測定するローリングベンチマークAgents' Last Exam(ALE)で測定した結果を下記の論文で発表している。ALEでは、Fable 5、GPT-5.5、Composer 2.5、およびその他の最先端のエージェントシステムを、55の職業にわたる1,500以上の専門家から提供されたタスクで評価したと...
note.com