何が起きたか
オープンソースLLM「Olmo」シリーズの中心メンバーとして知られるNathan Lambert氏が、Allen Institute for AI(Ai2)を離れることを公表しました。同氏は2023年のICML(ハワイ)でLuca Soldaini氏と出会ったことをきっかけに、同年10月にAi2へ加入。リモート勤務から始まり、最初の報酬モデル評価基盤RewardBenchを構築したほか、70BスケールでDPO(Direct Preference Optimization)を公開実装したTülu 2、そして2024年秋に発表されたTülu 3を主導してきました。
なぜ重要か
Tülu 3の論文は「検証可能な報酬による強化学習(RLVR)」という用語を生み出し、その後のポストトレーニング研究の語彙そのものを変えた経緯があります。Llama 3のベースモデルを使ってLlama 3のポストトレーニングを上回るという野心的な目標を掲げたこのプロジェクトは、クローズドな大手ラボとは異なる「公開された手続き」でフロンティアに迫る数少ない事例でした。Lambert氏の退職は、特定個人の人事を超えて、オープン側の研究体制が次の世代に引き継がれる節目という意味を持ちます。
背景にある論点
同氏は退職にあたり、Andrej Karpathy氏のAnthropic参画を「AI研究がクローズドに移っていく」象徴的出来事として挙げ、独立した声の必要性を強調しています。Olmo 3は当初2025年6〜7月の公開を目指していたものの遅延し、結果的により大きなモデルが訓練・公開されました。その後、同氏は新たな大型ポストトレーニング案件を立ち上げに至らなかったと自身で振り返っており、組織のテンポと個人の研究テンポのずれが背景にあると読み取れます。今後はシアトルに留まり、オープンエコシステムの中で活動を続ける見通しです。
💼 事業会社視点:これは自社にどう効くか
日本の事業会社にとって本件は「オープンモデル戦略の前提が静かに変わりつつある」シグナルです。Ai2のOlmo/Tülu系列は、ライセンスとレシピが公開されている数少ないフロンティア追随プロジェクトであり、国内SaaSや受託開発、金融・製造の社内LLM構築チームが、クローズドAPIに依存しない選択肢を持てる根拠の一つでした。中核人物の異動が続けば、ポストトレーニングのノウハウは個人ブログや小規模スタートアップに分散していきます。
経営層が今打つべき手は二つです。第一に、自社のモデル選定基準を「ライセンス」だけでなく「開発主体の継続性」まで広げ、Olmo/Llama/Qwen等の単一依存を避けたマルチソース戦略に切り替えること。第二に、RewardBenchやRLVRのような評価・学習設計の知見は論文と人に紐づいて流通するため、社内に一次情報を読み解ける研究系人材を1人でも確保し、ベンダー提案を相対化できる体制を作ることです。オープン側の地殻変動は、内製/外注の境界線を引き直す好機です。