何が発表されたか

Nvidia、Carnegie Mellon University、UC Berkeleyの研究チームが、ロボットの器用な把持・操作をAIコーディングエージェントに任せて学習させる研究プロジェクト「ENPIRE」を公開しました。人間がデータ収集、シーンのリセット、アルゴリズム調整に費やしてきた時間を、コードを書けるエージェントに肩代わりさせるのが狙いです。

第1段階では、人間が安全境界や自動リセット、成功判定の枠組みを部分的に与えた上で、エージェントが「成功と失敗を区別する報酬関数」を自分で書きます。必要なのは、成功例・失敗例の動画が数分程度。ピン挿入では視覚的な位置合わせ・グリッパーの高さ・推定力の3要素を組み合わせた判定を、ケーブルタイ閉じでは2方向のカメラ画像を組み合わせて反応時間を150ミリ秒以下に抑える判定を、エージェント自身が設計しました。

エージェントが「研究者」になる第2段階

第2段階では、エージェントが論文を読み、仮説を立て、訓練コードを直接編集します。模倣学習(behavior cloning)か強化学習かも、実機での成功シグナルを見て選び分けます。さらに8台のデュアルアームYAMロボットステーションそれぞれに独立したコーディングエージェントを割り当て、結果をGit経由でのみ共有。良いレシピは自律的に取り込み、悪い案は捨てる「分散研究室」のような構造になっています。

成果と限界

Push-Tテストやピンを箱に仕分けるタスク、カッターによるケーブルタイ切断で最大99%の成功率を達成。ピン挿入では人間が介在する手法より早く100%に収束し、Push-Tは1台→8台で5時間が2時間に、ピン挿入は90分超→約40分に短縮されました。一方で検証されたコーディングエージェントはCodex(GPT-5.5)、Claude Code(Opus 4.7)、Kimi Code(Kimi K2.6)の3種で、シミュレーション上はすべて解けたPush-Tも実環境では3つ中2つが失敗。研究チームは摩擦や物体の動きといった現実の不確実性を原因に挙げています。シミュレーション環境RoboCasaではエンドツーエンドのGR00Tや自動研究機能のないCaP-Xを上回りました。

ただし、エージェントがログ読みやコード生成に時間を割くため、ロボットと計算資源の稼働率は下がります。台数を増やすほど互いの結果を要約する時間が増え、トークンコストは性能向上より速いペースで膨らみます。研究チームはこの課題を捉えるため、Mean Robot Utilization(MRU)とMean Token Utilization(MTU)という効率指標も提案しました。

出典: The Decoder

💼 事業会社視点:これは自社にどう効くか

ロボット導入を検討する日本の製造業・物流・受託開発各社にとって、ENPIREが示した示唆は明確です。これまでロボット導入の最大コストは、ハード価格ではなく「タスクごとに専門エンジニアがティーチングと報酬設計を作り込む人件費」でした。ENPIREはその工程を、コーディングエージェントが論文を読みコードを書き換える形に置き換えられる可能性を示しています。

ただし経営者がそのまま「人員削減できる」と読むのは危険です。Push-Tがシミュレーションで解けても実機で2/3のエージェントが失敗した事実は、現場の摩擦・個体差を吸収する人間側の暗黙知が依然重いことを示しています。SIerや受託開発企業にとっては、ロボット単体の販売から「自社設備で自律学習を回せる環境構築・MRU/MTUのような効率KPI設計」へと提供価値をシフトする好機です。一方、自社工場を持つ事業会社の責任者は、まず1〜2拠点で「学習サイクルをGitで共有する小規模フリート」を試行し、トークン費用と稼働率のバランスを社内データで掴むのが先決です。汎用ロボット投資の前に、効率指標の自社版を持つことが意思決定の土台になります。

関連リンク