何が起きたか
Google Researchは、Gemini 3.1 Proを土台にした新しいtext-to-SQLシステム「Gemini-SQL2」を発表しました。自然言語の質問を、実際にデータベース上で動くSQLクエリに変換するモデルです。text-to-SQLの定番ベンチマークBIRDで実行精度80.04%を達成し、Googleの公表上は首位。OpenAIのGPT-5.5-xhigh(約72.8%)、AnthropicのClaude Opus 4.6(約70.9%)を一段引き離し、Databricks・AWS・Tencent・Alibabaの提出モデルはさらに後方とされています。
なぜ重要か
Google Research自身が認めているように、自然言語を「正しく動くSQL」に変換する難しさの本質は、業務データが多層的に積み上がっており、クエリが複雑な業務ルール(ビジネスロジック)を踏まえる必要がある点にあります。「それっぽいSQL」を書くモデルは前から存在しましたが、Gemini-SQL2は「見た目も正しく、実行も通る」水準に到達したとGoogleは説明しています。これは、BIツールやダッシュボードの裏側、社内ChatBotからのデータ問い合わせ、SaaSの自然言語検索といった用途の実用ラインを押し上げる指標として読めます。
公開状況と次の含意
現時点でGemini-SQL2の一般公開やモデルカード、論文の公表は発表されていません。一方でGoogleは、SQL理解力の向上はGoogleのデータ関連サービス全体の自然言語機能を底上げしうるとも示唆しています。つまり単独製品というより、BigQueryなどデータ基盤側に組み込まれる前提の研究投資と読むのが自然です。BIRDのトップが80%台に乗ったことは、「自然言語でデータを叩く」UIが、デモから業務適用フェーズに入る転換点に近づいたサインといえます。
💼 事業会社視点:これは自社にどう効くか
日本の事業会社にとって、これは「データ人材の不足」と「BI更新の停滞」に直接効く話です。EC・SaaS・小売・金融など、毎月の意思決定がSQLを書けるアナリストの稼働に縛られている企業ほど、自然言語インターフェースの精度向上は売上に効きます。
短期で動くべきは2つ。まずデータ基盤側、特にBigQueryやSnowflake上のスキーマ・指標定義(セマンティックレイヤー)を整え直すことです。モデル精度が80%台に乗ると、ボトルネックは「LLMの賢さ」ではなく「自社データの命名と業務ロジックの整理度」に移ります。次に、SaaS・受託開発の事業者は、自社プロダクトに自然言語クエリ機能を載せる前提でロードマップを引き直すべきです。Gemini-SQL2が単独提供されなくとも、BigQuery側の機能として降りてくれば、独自実装の優位性は急速に薄れます。
逆に役員が今やってはいけないのは、「ベンチ80%だから業務丸ごと任せられる」と早合点して内製アナリストを削ることです。残り20%の誤実行は、経営数値の誤読に直結します。