MicrosoftがAIエージェント向け最適化フレームワーク「SkillOpt」をOSSで公開――GPT-5.5で平均+23.5ポイント改善

MicrosoftはAIエージェントのスキルをモデルの重みを変えずにテキスト最適化するオープンソースフレームワーク「SkillOpt」を公開した。GPT-5.5との組み合わせではスキルなしのベースラインと比べて平均23.5ポイントの性能向上を記録し、既存手法のTextGrad・GEPA・EvoSkill・Trace2Skillを含む52通りの評価組み合わせすべてで上回った。

スキルをマークダウンファイルとして最適化する仕組み

SkillOptはMITライセンスで公開されており、エージェントが参照する「スキル」をマークダウンファイルとして管理する。タスクを実行するターゲットモデルと、そのスキル文書への編集を提案するオプティマイザモデルを分離した「提案→検証」ループが核心だ。

Microsoft Research Asiaの研究者Yifan Yangらは、この設計の背景について三つの典型的な失敗パターンを挙げている。ステップサイズの制御がないためスキルが漂流すること、検証がないため一見もっともらしい修正がこっそり性能を下げること、そして失敗した編集を記憶しないため同じ誤りが繰り返されることだ。SkillOptはディープラーニングの学習率・バリデーションゲート・モメンタムに相当する仕組みをテキスト最適化に導入することでこれらに対処する。

検証なし書き換えのリスクも定量化

実験ではバリデーションゲートを外した単純な書き換えを行ったところ、SpreadsheetBenchで41.8から41.1へのスコア低下が確認された。わずかな差に見えるが、自動的に性能が保証されない状態でスキルが上書きされるリスクを示す事例として位置づけられている。

小型モデルでの大幅な向上

小型モデルでの効果も顕著だ。GPT-5.4-nanoはマルチモーダル文書QAのスコアが2倍に、具現化インタラクションと逐次意思決定では3倍になった。スプレッドシートスキルをClaude Codeに展開した場合は+59.7ポイントという大幅な改善が得られた。

軽量・移植可能なスキル設計

デプロイされるスキルは最大2,000トークン（中央値920トークン）に抑えられており、プレーンチャット・Codex CLI・Claude Codeといった異なる実行環境間でそのまま移植できる。あるハーネスで訓練したスキルを別のハーネスで使うために修正は不要だ。

コミュニティフレームワークのGBrainではClaude Sonnetを使ったスキル訓練コストが1タスクあたり平均1〜5ドルとされており、エンタープライズでの試験導入にかかる初期費用は比較的低い。

適用領域と留意点

研究チームは契約書・請求書・フォームからの正確な数値抽出や、多段階ワークフローでのフォーマット整合・自己検証・監査可能な出力を主な適用領域として挙げている。「向上するのは手順を学習することによる信頼性であり、答えを暗記することではない」とYang氏は述べる。

一方、自動スコアラーが使えない場合は人間またはモデルベースの評価器を設計する必要があり、その安定性の管理が実装上の課題になると指摘されている。SkillOptはDSPyとは補完的な関係にあり、DSPyが宣言的なLMパイプラインの構造最適化を担うのに対し、SkillOptは凍結されたエージェントが読み込む外部スキルの状態を最適化する。両者を組み合わせて使うことも可能だ。

出典：VentureBeat

よくある質問

SkillOptは既存のプロンプト最適化手法と何が違うのですか？

SkillOptは学習率・バリデーションゲート・モメンタムに相当する仕組みをテキスト最適化に導入しており、TextGrad・GEPA・EvoSkill・Trace2Skillを含む52通りの評価組み合わせすべてで既存手法を上回りました。特に「検証なし書き換えによる性能低下」と「失敗編集の繰り返し」を防ぐ設計が特徴です。

SkillOptで訓練したスキルは別のAIモデルや実行環境でも使えますか？

はい。スキルはマークダウンファイルとして保存され、プレーンチャット・Codex CLI・Claude Codeなど異なるハーネス間で修正なしに移植できます。あるモデル向けに訓練したスキルを別のモデルやハーネスで使うことも可能です。

自動スコアラーが使えないタスクではどう対応すればよいですか？

人間またはモデルベースの評価器を別途設計する必要があります。研究チームは「評価ハーネスこそエンジニアリングの本番であり、オプティマイザ自体は軽量」と述べており、評価器の安定性管理が実装上の主な課題になると指摘しています。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

MicrosoftがAIエージェント向け最適化フレームワーク「SkillOpt」をOSSで公開――GPT-5.5で平均+23.5ポイント改善

スキルをマークダウンファイルとして最適化する仕組み

検証なし書き換えのリスクも定量化

小型モデルでの大幅な向上

軽量・移植可能なスキル設計

適用領域と留意点

関連リンク

よくある質問

関連記事

トークンマックスとは何か?MicrosoftナデラCEOが警告する「最上位モデル乱用」と開発者の役割変化

SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説

AIエージェントが本番で動かない真因とは?VentureBeat調査が示す「脳ではなく背骨」の問題