新たに開発された音声モデル、Audio-Interactionは、連続的に音声データをリスニングし、約0.4秒ごとに反応するかどうかを瞬時に判断することが特徴です。このモデルは、会話や翻訳、音声認識の機能を統合し、一つのシステムで扱うことができるため、幅広い応用が期待されています。

Audio-Interactionは、MMAUオーディオベンチマークで58.15ポイントを記録し、そのベースモデルであるQwen2.5-Omni-3Bを上回る結果を示しました。この性能向上は、研究者たちが長いシーケンスとレスポンス信号の閾値を考慮して訓練データセットを構築したことによるものです。

訓練に使用された「StreamAudio-2M」データセットは、2.6百万のユニットを含み、約302,000時間にわたる多様なスキルの音声データを網羅しています。このデータセットは、7つのスキル領域と28のサブタスクにわたっているため、リッチな学習素材が提供されています。

特に注目すべきは、音声モデルが初回レスポンスまでの時間を392ミリ秒から831ミリ秒に延長しないための工夫です。この分割がなければ、モデルは5.2%の確率で操作が停止してしまう可能性がありました。このように、音声モデルは安定した応答性能を維持するための効果的な設計が施されています。

この新しい音声モデルは、現代の音声技術の発展に貢献するもので、将来的には多様なインタラクションシーンでの利用が期待されます。