Gemini 3.5 Live Translateとは？Googleの70言語対応・音声同時翻訳AIを解説

Googleが音声から音声へ直接変換するAIモデル「Gemini 3.5 Live Translate」を発表しました。70言語以上を自動検出し、話者から数秒遅れで追随する低遅延の同時通訳を実現し、Google Meetなどへ順次展開されます。

何が発表されたか

Googleは音声同時翻訳に特化したAIモデル「Gemini 3.5 Live Translate」を公開しました。Google I/Oで発表された「Gemini 3.5」ファミリーの一部で、先行してロールアウトされたFlashに続く位置づけです。Proモデルも数週間以内に投入される見込みとされています。

技術的なポイント

最大の特徴は、テキストを経由せずに音声から音声へ直接変換する「speech-to-speech」モデルである点です。70以上の言語を自動検出し、設定を手作業で切り替える必要なくマルチリンガル入力をそのまま処理します。話者の抑揚・話す速度・声の高さを再現するため、機械音声特有の単調さが緩和されると説明されています。遅延は通常会話に追従できる「数秒」レベルで、雑音環境下のノイズも除去します。ただし、公開されたデモは管理された条件下で収録された点には留意が必要です。

どこで使えるか

展開先はGoogleエコシステム全体に及びます。Google Meetでの音声翻訳に組み込まれるほか、開発者はGemini Live APIおよびAI Studioのパブリックプレビューで構築を始められます。昨年のTranslateアプリへのリアルタイム翻訳投入から、用途は会議・通話・組み込みアプリへと一段広がる構図です。

💼 事業会社視点：これは自社にどう効くか

国境をまたぐビジネスを抱える日本企業にとって、本モデルの実用性は「会議の生産性」と「採用市場の物理的制約の解消」という二点に直結します。海外拠点や外資クライアントを持つSaaS・受託開発・グローバルEC事業者にとって、Google Meetへ組み込まれる点は重要です。これまで通訳手配や英語要員の配置に依存していたミーティングが、追加コストほぼゼロで多言語化される可能性があります。

経営者・事業責任者が今動くべきは、(1)社内会議運用ルールの再設計（議事録・翻訳の二重投資を見直す）、(2)Gemini Live APIを使った自社プロダクトへの組み込みPoCの即時着手、の二点です。特に観光・接客・コールセンター・越境ECのカスタマーサポートでは、70言語対応と低遅延の組み合わせが、自前で多言語人材を抱える従来モデルの前提を崩します。逆に、翻訳・通訳の人的サービスに依存するビジネスは、向こう1年でコモディティ化圧力に晒されると見るべきです。

よくある質問

Gemini 3.5 Live Translateは何が新しいのですか?

テキストを介さず音声から直接音声へ翻訳するspeech-to-speechモデルで、70以上の言語を自動検出し、話者の抑揚・速度・声の高さを再現します。遅延は通常会話に追従できる数秒程度です。

開発者はどこから使い始められますか?

Gemini Live APIまたはAI Studioのパブリックプレビューから利用可能です。Google MeetなどGoogleエコシステム側にも順次展開されます。

デモの性能はそのまま実環境で出ますか?

Googleの公開デモは管理された条件下で収録されたとされており、実環境では雑音や回線状況の影響を受ける可能性があります。本モデルには背景ノイズの除去機能も搭載されています。

本記事は Ars Technica の報道を元に、事実に基づき独自に再構成したものです。

Gemini 3.5 Live Translateとは？Googleの70言語対応・音声同時翻訳AIを解説

何が発表されたか

技術的なポイント

どこで使えるか

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

Gemini 3.5 Live Translateとは？Googleの70言語リアルタイム音声翻訳の中身と事業インパクト

SynthIDとは？300回圧縮しても消えないGoogleのAI透かしと、それでも偽情報が止まらない構造的な理由

Geminiの月間利用者が9.5億人に到達──ChatGPT一強はなぜ崩れ始めたのか