GPT-Realtime-2とは
GPT-Realtime-2は、OpenAIが2026年5月に公開したリアルタイム音声モデルだ。OpenAIは「GPT-5クラスの推論能力を持つ、初めての音声モデル」と位置づけている。ただし、知識のカットオフ日は2024年9月30日であり、それ以降の出来事については学習していない点に注意が必要だ。
ツールのアップデート内容
Simon Willisonは2024年12月、OpenAIのWebRTC APIを検証する目的でWebRTC Audio Sessionツールの初版を公開した。2026年6月12日に公開した更新版では、以下の機能が加わった。
- モデルの選択: 複数のリアルタイム音声モデルを切り替えられるようになった
- ドキュメントコンテキストの貼り付け: テキストをツールに貼り付けることで、その内容について音声で質問・会話できる
すべてブラウザ内で完結するため、追加のソフトウェアインストールは不要だ。
ChatGPTアプリへの統合は未実装
Willisonによると、GPT-Realtime-2はリリースから時間が経過した6月12日時点でも、ChatGPTのiPhoneアプリにはまだ登場していないという。新モデルをChatGPTの通常ユーザーが音声機能として利用できるようになるまでには、さらなる時間がかかるとみられる。
なぜ重要か
ドキュメントコンテキストを音声会話に組み合わせる機能は、会議メモや技術文書を口頭で確認したいユーザーにとって実用的な使い方を広げる可能性がある。ただし、知識カットオフの制約があるため、最新情報の参照はドキュメントの貼り付けによる補完が前提となる。
出典: Simon Willison