ファインチューニングと何が違うのですか?

対象モデルの重みを一切変更せず、外部のMarkdownスキル文書のみを編集・訓練する点が異なります。推論時はその文書をコンテキストとして渡すだけで、文書サイズも300〜2,000トークンに収まります。

どんなタスクで効果が大きいのですか?

スプレッドシート編集のように形式要件が厳しくツール利用を伴うタスクで最も伸びが大きく、小型モデル(例:Qwen3.5-4B)でも恩恵が確認されています。一方、自動採点が難しいオープンエンドなタスクには現状適しません。

訓練したスキルは他のモデルでも使えますか?

はい。Codexループで訓練した表計算スキルはClaude Codeでも未修正で同等の性能を示し、大型モデルで訓練したスキルが同系列の小型モデルでも改善をもたらすことが確認されています。

SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説

MicrosoftらがGPT-5.5を凍結したまま、Markdownの指示書(スキル)を訓練するSkillOptを発表しました。6ベンチマーク平均でGPT-5.5を約23ポイント押し上げ、生成されるドキュメントはわずか300〜2,000トークンに収まります。

何が起きたか

Microsoftと中国の3大学が発表したSkillOptは、AIエージェントに与える「スキル(Markdownの指示書)」をモデルの重みのように訓練する手法です。手順、ツール利用ルール、出力形式、既知の失敗パターンを束ねたスキル文書を、対象モデルを凍結したまま外部の学習可能な状態として扱い、別の言語モデルが「オプティマイザ」として編集していきます。

オプティマイザはエージェントの実行ログから繰り返し起きる失敗・成功パターンを抽出し、文書への追加・削除・置換を限定的に提案。各編集案は検証セットで性能が上がった場合のみ採用されます。学習率で1ステップの編集量を抑え、スケジューラがエポックを跨いで編集量を減衰させ、却下された編集はバッファに「負例」として蓄積される、という深層学習の概念がそのままテキスト編集に写像されているのが特徴です。

なぜ重要か

直接チャットでのGPT-5.5に対し、6ベンチマーク(検索、表計算、文書分析、数学、身体行動など)平均で約23ポイントの改善という結果は、ファインチューニングではなく「コンテキストに渡す文書を鍛える」だけで到達した数字です。最終的なスキル文書は2,000トークン以下、改善のほとんどは4エポック中わずか1〜4回の採用編集から生まれており、推論時のオーバーヘッドは小さい。

しかも、Codexループで訓練した表計算スキルがClaude Codeでそのまま機能し、より大きなモデルで訓練したスキルが同系列の小型モデルにも効くなど、環境・モデルを跨いだ転用性が確認されています。

学習されたルールの具体例

抽象的な指針ではなく実務的な作法が学ばれている点が示唆的です。表計算では「まずワークシート構造を確認し、Excelの数式ではなく評価済みの値を対象範囲に直接書き込む」、ALFWorld(身体行動)では「訪問済み地点をログ化し、対象物を拾う前にゴールへ向かわない」、文書QAでは「回答前に質問を該当する表の行に紐付ける」といった、現場のミスを潰すルールが残ります。

限界

SkillOptは自動採点が信頼できるタスクに依存します。オープンエンドな業務には人間または別モデルの判定が必要です。また、スキルライブラリではなく単一文書を最適化する設計のため、領域が大きく異なるタスク群を1枚に詰めると性能のボトルネックになり得ます。

なお、関連動向としてPrincetonのOpenClaw-RLや、失敗からルールを抽出してプロンプトに注入するMetaClaw、推論制御アルゴリズム自体を探索させるAutoTTS、自己改善メカニズムごと最適化するMetaのHyperagentsなど、「モデルを再学習せずに賢くする」競争が熱を帯びています。

💼 事業会社視点：これは自社にどう効くか

経営者は何をすべきか

事業会社にとって最大の含意は、「AIの性能改善=ファインチューニング/モデル乗り換え」という前提が崩れたことです。Markdown1枚を整備するだけで20ポイント超の改善が見込めるなら、社内の生産性向上施策の優先順位は変わります。

SaaS・受託開発:顧客ごとに作り込む「プロンプト集」を、SkillOpt的に「ログから自動編集される運用ドキュメント」として商品化できる余地があります。GPTの世代交代でも資産が陳腐化しにくく、Codexで訓練したスキルがClaude Codeで動くという転用性は、マルチLLM戦略の保険になります。
国内EC・基幹業務:特にスプレッドシート操作や帳票処理など「形式が厳しくツール利用を伴う」業務での伸びが大きいと報告されています。RPA代替や経理・在庫オペレーションの自動化案件で、まずは検証セットを作れるタスクから着手すべきです。
経営判断のレベルでは、自動採点(KPI)を定義できる業務をリストアップし、ログ蓄積基盤を「学習データ」として再定義する号令が要ります。逆に、自動採点が難しい創造的・対人業務は当面この手法の外側に置く。ログ収集、評価指標、編集ガバナンスの三点セットが、来年以降のAI内製戦略の土台になります。

SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説

何が起きたか

なぜ重要か

学習されたルールの具体例

限界

💼 事業会社視点：これは自社にどう効くか

経営者は何をすべきか

関連リンク

よくある質問

SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説

何が起きたか

なぜ重要か

学習されたルールの具体例

限界

💼 事業会社視点：これは自社にどう効くか

経営者は何をすべきか

関連リンク

よくある質問

関連記事

MicrosoftがAIエージェント向け最適化フレームワーク「SkillOpt」をOSSで公開――GPT-5.5で平均+23.5ポイント改善

AIゲートウェイとは？ナデラCEOが警告する「自社モデルを持たない企業は生き残れない」の真意

MAI-Cyber-1-Flashとは？Microsoftのサイバー特化AIと自律型セキュリティ基盤「Perception」を解説