何が公開されたか

アリババのQwenチームが、テキスト専用モデル「Qwen3.7」を基盤に、画像・画面・UI操作を扱う「Qwen3.7-Plus」を発表しました。同社はこれを「multimodal interactive hybrid agent(マルチモーダルな対話型ハイブリッド・エージェント)」と位置づけ、現実のシーン認識、画面読み取り、GUI操作、画像テンプレートからのコード生成、モバイルアプリの一連の操作までを1つのエージェント・ループで処理すると説明しています。UIクリックとコマンドライン命令が同じループ内で混在する点が特徴です。

デモで示された3つの使い方

第1のデモは英語学習アプリの自動開発で、11時間以上にわたり1,000回超のエージェント呼び出しを行い、1万行以上のコードを生成。要件定義から自動コード生成、インストール、テストケース作成、GUIテスト、バージョン管理までを一気通貫で処理しました。第2はmacOS標準アプリ「Stocks」を自律操作してUI構造を解析し、SwiftUIで再実装、外部APIに接続して10種類の機能テストまで自走させたケース。第3は「Qwen for Chrome」というサイドバー拡張で、クラウドコンソール上で最安の仮想サーバ購入やスケーリング設定までを代行します。

ベンチマークの読み方

AndroidWorldとScreenSpot Proという「画面を操作するエージェント」を評価する指標で、GPT-5.4(xhigh)、Opus 4.6 Max、Gemini 3.1 Proを引き離したと公表されています。一方、純粋なコーディングや一部エージェント評価ではClaude Opus 4.6に届かず、MedXpertQA-MMのような科学系の難問ではGemini 3.1 ProやGPT-5.4に劣後。「画面を見て手を動かす領域」に特化して尖らせたモデルと読むのが妥当です。

統合のしやすさと価格

Anthropic APIプロトコルに対応し、Claude Code、OpenClaw、自社のQwen Codeから直接呼び出せます。会話の推論内容を引き継ぐ「preserve_thinking」も用意され、長時間のエージェントタスクを想定した設計です。提供はAlibaba Cloud Model Studio経由のクローズドモデルで、入力100万トークンあたり0.40ドル、出力2.40ドル。Qwen3.7-Max(入力2.50ドル/出力7.50ドル)と比べ、入力で約6倍、出力で約3倍の価格差をつけ、欧米フロンティアモデルを大きく下回る水準に置かれています。

💼 事業会社視点:これは自社にどう効くか

日本企業はどう向き合うか

受託開発・SIerにとっては、要件定義からGUIテストまで11時間で走り切るデモは、保守・運用フェーズの単価を直撃する事象です。「画面を見て操作できる」モデルが$0.40/Mトークンで使えるなら、社内の業務システム改修やレガシーアプリのリプレース見積の前提が崩れます。コード量での請求から、エージェント運用設計とSRE側に価値を移す再設計を急ぐべきです。

SaaS事業者は、Qwen for Chromeのような「ブラウザ・エージェント」が自社管理画面を直接操作する世界線を前提に、APIファースト/MCP対応を改めて見直す必要があります。UIだけ磨いてもエージェントが触ってくれません。

EC・コーポレートIT部門は、GPUインスタンス購入やセキュリティグループ設定をエージェントに任せるユースケースが現実化したことを踏まえ、クラウド購買と権限分離の社内規程を先に整備すべきです。最後に、クローズドモデルとはいえアリババ製である点は、データ主権や顧客説明の観点でハードルになる業界(金融・公共・医療)があり、PoCはAnthropic APIプロトコル互換を活かして「差し替え可能な形」で組むのが安全策です。

関連リンク