Olmoの生みの親Nathan LambertがAi2を退職、オープンAI研究の旗手はどこへ向かうのか

Olmoモデルの主要開発者であるNathan Lambert氏が、2023年10月から在籍したAllen Institute for AI(Ai2)を退職しました。RewardBenchやTülu 3でRLVRという概念を打ち出した同氏は、引き続きシアトルを拠点にオープンAIエコシステムでの活動を続けるとしています。

何が起きたか

オープンソースLLM「Olmo」シリーズの中心メンバーとして知られるNathan Lambert氏が、Allen Institute for AI(Ai2)を離れることを公表しました。同氏は2023年のICML(ハワイ)でLuca Soldaini氏と出会ったことをきっかけに、同年10月にAi2へ加入。リモート勤務から始まり、最初の報酬モデル評価基盤RewardBenchを構築したほか、70BスケールでDPO(Direct Preference Optimization)を公開実装したTülu 2、そして2024年秋に発表されたTülu 3を主導してきました。

なぜ重要か

Tülu 3の論文は「検証可能な報酬による強化学習(RLVR)」という用語を生み出し、その後のポストトレーニング研究の語彙そのものを変えた経緯があります。Llama 3のベースモデルを使ってLlama 3のポストトレーニングを上回るという野心的な目標を掲げたこのプロジェクトは、クローズドな大手ラボとは異なる「公開された手続き」でフロンティアに迫る数少ない事例でした。Lambert氏の退職は、特定個人の人事を超えて、オープン側の研究体制が次の世代に引き継がれる節目という意味を持ちます。

背景にある論点

同氏は退職にあたり、Andrej Karpathy氏のAnthropic参画を「AI研究がクローズドに移っていく」象徴的出来事として挙げ、独立した声の必要性を強調しています。Olmo 3は当初2025年6〜7月の公開を目指していたものの遅延し、結果的により大きなモデルが訓練・公開されました。その後、同氏は新たな大型ポストトレーニング案件を立ち上げに至らなかったと自身で振り返っており、組織のテンポと個人の研究テンポのずれが背景にあると読み取れます。今後はシアトルに留まり、オープンエコシステムの中で活動を続ける見通しです。

💼 事業会社視点：これは自社にどう効くか

日本の事業会社にとって本件は「オープンモデル戦略の前提が静かに変わりつつある」シグナルです。Ai2のOlmo/Tülu系列は、ライセンスとレシピが公開されている数少ないフロンティア追随プロジェクトであり、国内SaaSや受託開発、金融・製造の社内LLM構築チームが、クローズドAPIに依存しない選択肢を持てる根拠の一つでした。中核人物の異動が続けば、ポストトレーニングのノウハウは個人ブログや小規模スタートアップに分散していきます。

経営層が今打つべき手は二つです。第一に、自社のモデル選定基準を「ライセンス」だけでなく「開発主体の継続性」まで広げ、Olmo/Llama/Qwen等の単一依存を避けたマルチソース戦略に切り替えること。第二に、RewardBenchやRLVRのような評価・学習設計の知見は論文と人に紐づいて流通するため、社内に一次情報を読み解ける研究系人材を1人でも確保し、ベンダー提案を相対化できる体制を作ることです。オープン側の地殻変動は、内製/外注の境界線を引き直す好機です。

よくある質問

Nathan Lambert氏は今後どこで活動しますか?

本人の表明によれば、シアトルを拠点に留まり、引き続きオープンAIエコシステムの中で活動を続けるとしています。具体的な新所属は本人の発表に明示されていません。

RLVR(検証可能な報酬による強化学習)とは何ですか?

Tülu 3の論文で提唱された用語で、人間の主観評価ではなく、正解検証が可能なタスクに対して強化学習を適用するアプローチを指します。Tülu 3はLlama 3のベースモデルを用いてLlama 3のポストトレーニング性能を上回ることを目標としていました。

Olmo 3の状況はどうなっていますか?

当初Ai2は2025年6月か7月の公開を目指していましたが遅延し、最終的にはより大きなモデルが訓練・公開されたとLambert氏は説明しています。

本記事は Interconnects の報道を元に、事実に基づき独自に再構成したものです。

Olmoの生みの親Nathan LambertがAi2を退職、オープンAI研究の旗手はどこへ向かうのか

何が起きたか

なぜ重要か

背景にある論点

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

GLM-5.2とは？100万トークン文脈と長時間コーディングを武器にClaude Opus 4.8に肉薄する中国発オープンソースAI

ソブリンAIとは？Anthropicの外国人アクセス停止がインドに突きつけた「米国製LLMの地政学リスク」

Gemma 4 12Bとは？ノートPCで動く新型オープンモデルが企業のAI内製を変える理由