何が発表されたか

AppleはWWDC26で第3世代基盤モデル群「AFM 3」を発表しました。オンデバイス2モデル、サーバ側3モデルの計5モデルで構成され、開発はGoogleとの協業によるものです。サーバ側の「AFM 3 Cloud Pro」はエージェント的なツール利用や複雑な推論を担い、Google Cloud上のNvidia GPUで動作しますが、すべて「Private Cloud Compute」境界内で実行されると説明されています。

NANDフラッシュにモデルを置く独自設計

注目すべきはオンデバイス側のAFM 3 Core Advancedです。200億パラメータという規模を端末で扱うため、重みをDRAMではなくNANDフラッシュに保存し、必要な部分だけRAMへ呼び出す構造を取っています。Appleはこの手法を「Instruction-Following Pruning(IFP)」と呼び、フラッシュをモデルの常駐先、DRAMを作業用バッファと位置付けます。

通常のMixture of Experts(MoE)はトークンごとにルータが異なる専門家を選びますが、NAND-DRAM間の帯域では推論速度に追いつきません。AFM 3 Core Advancedはプロンプト単位で1度だけルーティングを行い、選ばれた専門家を共有層とともにDRAMへ読み込み、その構成のままトークン生成を続けます。タスクの複雑さに応じてアクティブな実効パラメータは10億〜40億に変動し、いずれも200億のプールから選択されます。

残された不透明さ

アーキテクチャ論文はメモリ設計とスパース活性化機構には詳しい一方、実運用面の情報は限定的です。Appleの計測ツールは時間は見せても、エネルギー消費・メモリ帯域・発熱は露出しません。また、簡単な要求は端末内、複雑な要求はAFM 3 Cloud Proへ振り分けられる一方で、「どの条件でクラウドへ抜けるか」「その判断が開発者やユーザーに見えるか」はドキュメント化されていません。完全な技術レポートは夏に公開される予定です。

💼 事業会社視点:これは自社にどう効くか

日本企業はAppleの「不透明なクラウド退避」を前提に設計せよ

金融・医療・公共などコンプライアンス要件の厳しい業界では、推論がどこで走ったかを記録できることが事実上の必須要件です。AFM 3はPrivate Cloud Computeでデータ保護を謳う一方、端末からクラウドへ移行する条件が現状ドキュメント化されておらず、サーバ側はGoogle Cloud依存です。iOSアプリ上で生成AIを組み込む日本のSaaSや受託開発企業は、「Apple純正モデルだけで完結する」という想定を捨て、ログ取得・推論先の明示・代替モデルへの切替設計を前提にする必要があります

ECや業務アプリを抱える事業会社の役員視点では、200億パラメータ級が端末で動くインパクトは大きく、サーバ費用を圧縮する余地が広がります。一方で、AppleのスタックはNvidia・Googleと協業する構図に変わったため、「Appleに乗れば完全クローズド」という前提は崩れました。夏の技術レポート公開までは本番採用を待ち、その間に自社の推論ガバナンス・監査要件を棚卸ししておくのが現実解です。

関連リンク