スキルをマークダウンファイルとして最適化する仕組み
SkillOptはMITライセンスで公開されており、エージェントが参照する「スキル」をマークダウンファイルとして管理する。タスクを実行するターゲットモデルと、そのスキル文書への編集を提案するオプティマイザモデルを分離した「提案→検証」ループが核心だ。
Microsoft Research Asiaの研究者Yifan Yangらは、この設計の背景について三つの典型的な失敗パターンを挙げている。ステップサイズの制御がないためスキルが漂流すること、検証がないため一見もっともらしい修正がこっそり性能を下げること、そして失敗した編集を記憶しないため同じ誤りが繰り返されることだ。SkillOptはディープラーニングの学習率・バリデーションゲート・モメンタムに相当する仕組みをテキスト最適化に導入することでこれらに対処する。
検証なし書き換えのリスクも定量化
実験ではバリデーションゲートを外した単純な書き換えを行ったところ、SpreadsheetBenchで41.8から41.1へのスコア低下が確認された。わずかな差に見えるが、自動的に性能が保証されない状態でスキルが上書きされるリスクを示す事例として位置づけられている。
小型モデルでの大幅な向上
小型モデルでの効果も顕著だ。GPT-5.4-nanoはマルチモーダル文書QAのスコアが2倍に、具現化インタラクションと逐次意思決定では3倍になった。スプレッドシートスキルをClaude Codeに展開した場合は+59.7ポイントという大幅な改善が得られた。
軽量・移植可能なスキル設計
デプロイされるスキルは最大2,000トークン(中央値920トークン)に抑えられており、プレーンチャット・Codex CLI・Claude Codeといった異なる実行環境間でそのまま移植できる。あるハーネスで訓練したスキルを別のハーネスで使うために修正は不要だ。
コミュニティフレームワークのGBrainではClaude Sonnetを使ったスキル訓練コストが1タスクあたり平均1〜5ドルとされており、エンタープライズでの試験導入にかかる初期費用は比較的低い。
適用領域と留意点
研究チームは契約書・請求書・フォームからの正確な数値抽出や、多段階ワークフローでのフォーマット整合・自己検証・監査可能な出力を主な適用領域として挙げている。「向上するのは手順を学習することによる信頼性であり、答えを暗記することではない」とYang氏は述べる。
一方、自動スコアラーが使えない場合は人間またはモデルベースの評価器を設計する必要があり、その安定性の管理が実装上の課題になると指摘されている。SkillOptはDSPyとは補完的な関係にあり、DSPyが宣言的なLMパイプラインの構造最適化を担うのに対し、SkillOptは凍結されたエージェントが読み込む外部スキルの状態を最適化する。両者を組み合わせて使うことも可能だ。
出典:VentureBeat