Microsoftが公開したwaza、Agent Skillの品質を体系的に評価するためのGo製CLI。「Skillを書く」から「Skillを運用する」フェーズに進むためのツールという位置付け
github.com/microsoft/waza
何ができるか:
▼ Skillのscaffold
waza init でプロジェクト作成、waza new でSkill.mdとevalスイートのテンプレを生成。skills/ と evals/ を分離した構造で管理。
▼ Evalの自動生成
waza suggest がSkill.mdをLLMに読ませて、評価タスクとfixtureを提案。ゼロからeval書く手間を削減。
▼ ベンチマーク実行
waza run eval.yaml でタスクを並列実行。9種類のgrader(text/diff/behavior/action_sequence/skill_invocation/LLM-as-judge等)を組み合わせて多面的に採点。結果はキャッシュされて反復が速い。
▼ A/Bテスト
--baseline でskill適用あり/なしを同一タスクで実行し、改善度を定量化。「このSkillは本当に効いているか」を数字で示せる。
▼ Readinessチェック
waza check でcompliance score、トークン予算、
agentskills.io spec準拠、advisoryチェック(モジュール数、複雑度、negative delta riskパターン等)をまとめて判定。
▼ CI/CD統合
exit code(0/1/2)が定義済み、JUnit XML出力、GitHub Actions用のreusable workflow付き。PRごとにSkill品質をゲートできる。
▼ 結果の蓄積
Azure Blob Storageへ自動アップロード、waza results compare でラン間の差分を可視化。チームでSkillをイテレーションする運用を想定。
Skill開発を「プロンプトエンジニアリングの職人芸」から「テスト駆動の工学」に寄せようとしている設計思想が面白い。