OpenAIのGPT-Realtime-2、ドキュメントを貼り付けて音声会話できるWebRTCツールに対応

OpenAIが2026年5月にリリースした音声モデル「GPT-Realtime-2」が、ブラウザ上でドキュメントの内容について音声で会話できるWebRTCツールに組み込まれた。開発者のSimon Willisonが2024年12月に作成した同ツールを更新し、モデル選択とドキュメントコンテキストの貼り付け機能を追加した。

GPT-Realtime-2とは

GPT-Realtime-2は、OpenAIが2026年5月に公開したリアルタイム音声モデルだ。OpenAIは「GPT-5クラスの推論能力を持つ、初めての音声モデル」と位置づけている。ただし、知識のカットオフ日は2024年9月30日であり、それ以降の出来事については学習していない点に注意が必要だ。

ツールのアップデート内容

Simon Willisonは2024年12月、OpenAIのWebRTC APIを検証する目的でWebRTC Audio Sessionツールの初版を公開した。2026年6月12日に公開した更新版では、以下の機能が加わった。

モデルの選択: 複数のリアルタイム音声モデルを切り替えられるようになった
ドキュメントコンテキストの貼り付け: テキストをツールに貼り付けることで、その内容について音声で質問・会話できる

すべてブラウザ内で完結するため、追加のソフトウェアインストールは不要だ。

ChatGPTアプリへの統合は未実装

Willisonによると、GPT-Realtime-2はリリースから時間が経過した6月12日時点でも、ChatGPTのiPhoneアプリにはまだ登場していないという。新モデルをChatGPTの通常ユーザーが音声機能として利用できるようになるまでには、さらなる時間がかかるとみられる。

なぜ重要か

ドキュメントコンテキストを音声会話に組み合わせる機能は、会議メモや技術文書を口頭で確認したいユーザーにとって実用的な使い方を広げる可能性がある。ただし、知識カットオフの制約があるため、最新情報の参照はドキュメントの貼り付けによる補完が前提となる。

出典: Simon Willison

よくある質問

GPT-Realtime-2を使うにはどうすればよいですか？

Simon WillisonのWebRTC Audio Sessionツールをブラウザで開き、GPT-Realtime-2を選択することで利用できます。ChatGPTのiPhoneアプリへの統合は2026年6月12日時点で未実装です。

ドキュメントコンテキスト機能とは何ですか？

テキストをツールに貼り付けると、その内容についてGPT-Realtime-2と音声で会話できる機能です。ブラウザ内で完結するため、追加ソフトのインストールは不要です。

GPT-Realtime-2の知識には制限がありますか？

はい。GPT-Realtime-2の知識カットオフは2024年9月30日であり、それ以降の出来事については学習していません。最新情報を扱う場合はドキュメントを貼り付けて補完する必要があります。

本記事は Simon Willison の報道を元に、事実に基づき独自に再構成したものです。

OpenAIのGPT-Realtime-2、ドキュメントを貼り付けて音声会話できるWebRTCツールに対応

GPT-Realtime-2とは

ツールのアップデート内容

ChatGPTアプリへの統合は未実装

なぜ重要か

関連リンク

よくある質問

関連記事

ChatGPTがアガサ・クリスティー風の文章を拒否し始めた理由——AI作文と著作権リスクの新局面

NYタイムズがOpenAIを提訴して約3年——AI時代に「報道の責任は人間にある」と発行人が語る意味

ChatGPTが「特定作家の文体で書いて」を拒否し始めた——AI活用のプロンプト設計にどう効くか