Count Anythingとは？群衆・衛星画像・医療まで数える清華大のマルチモーダルAIを解説

清華大学らの研究チームが、群衆・衛星写真・医療画像・細菌コロニーまで横断的に物体数を数えるマルチモーダルAI「Count Anything」を発表しました。約22万枚・619カテゴリ・1500万ラベルの新データセット「CLOC」を用い、CountGDやGrounding DINOを上回る精度を示しています。

何が発表されたか

清華大学を中心とする研究チームが、画像内の物体を数えるマルチモーダルAI「Count Anything」を公開しました。コードはGitHubで配布されています。群衆カウント、衛星画像の建物計測、医療スキャン、細菌コロニーといった、従来は用途ごとに専用システムが必要だった領域を1つのモデルで扱える点が特徴です。

仕組み:領域ベースと画素ベースの併用

Count Anythingは、Metaの事前学習済みモデル「SAM3」をベースに、カウント用の小さなアダプターを追加する形で構築されています。モデル全体を再学習しないため、計算コストを抑えつつ汎用性を確保しています。

推論では、大きく明瞭な物体には領域ベース(バウンディングボックス)、小さく密集した物体には画素ベース(点打ち)という2系統を併走させ、結果を1つの点集合に統合します。両者が同じ対象を指した場合は、信頼度の高い予測のみを残すルールで二重カウントを防いでいます。

CLOCデータセットと性能

学習には、既存の単一目的データセットを統合・ラベル整理した新データセット「CLOC」が用いられました。約22万枚の画像、619カテゴリ、1500万ラベル、6つの視覚ドメインを含み、テキスト誘導カウント用としては最大規模とされています。

ベンチマークではCountGD、CLIP-Count、Grounding DINOを上回り、クエリされたカテゴリあたりの誤カウントは平均約9個、最良の競合モデルはその2倍以上の誤差でした。一方、純粋な群衆カウントでは専用システムにわずかに及ばず、曖昧な語や極端な密集・遮蔽シーンには弱いという限界もあります。

「数える」はAIの弱点だった

別途公開されたBabyVisionベンチマークでは、フロンティアモデルの多くが3歳児平均を下回り、Gemini 3 Proでもスコアは50%前後、遮蔽された3D積み木の数え上げでは最良モデルでも20.5%という結果でした(人間は誤答ゼロ)。LLMにとって「正確に数える」ことが依然として困難であることを裏付けており、Count Anythingのような専用設計の価値はここにあります。

💼 事業会社視点：これは自社にどう効くか

「数える」は地味ですが、業務に直結するAIタスクです。日本企業で具体的に効くのは次の領域です。

小売・EC・店舗運営:来店客数、棚の在庫数、陳列フェイス数の自動カウントは、これまでカメラベンダー個別開発でした。汎用モデルが実用域に入れば、内製のBI部隊でもPoCが回せます。ただし群衆カウントは専用機に劣るため、レジ前混雑検知のような高精度要件は既存ベンダー継続が無難です。

製造・物流:パレット上の段ボール数、部品点数、出荷ラベル数といった検品工程は、Count Anythingのようなテキスト誘導型と相性が良い領域です。SIerは「SAM3+アダプター」構成を1つの提案テンプレートとして持っておくと、PoC期間を大幅に短縮できます。

医療・農業・インフラ:衛星画像の太陽光パネル枚数、農地の作物本数、病理画像の細胞数など、これまで領域別スタートアップが個別に解いていた市場が、単一基盤に統合されつつあります。受託SaaS事業者は「縦割りの数えるサービス」をそのままの値付けで売り続けるリスクを点検すべきです。

経営判断としては、(1)社内の「人が数えている業務」の棚卸し、(2)Count AnythingのGitHub実装での小規模PoC、(3)精度限界(密集・遮蔽・曖昧語)を踏まえた業務切り分け、の3点を今期中に着手する価値があります。

よくある質問

Count Anythingは既存の群衆カウントシステムを置き換えますか?

純粋な群衆カウントの精度では最良の専用システムにわずかに及ばないと報告されています。汎用性を重視する用途では有力ですが、高精度な群衆計測が必須の領域では既存の専用システムが依然優位です。

自社で試すには何が必要ですか?

コードはGitHubで公開されています。ベースはMetaの事前学習済みSAM3で、カウント用アダプターを追加する構成のため、モデル全体を再学習する必要はありません。曖昧なカテゴリ語や極端に密集・遮蔽したシーンには弱い点を踏まえ、対象業務を切り分けて検証することが推奨されます。

なぜLLMは物体を正確に数えるのが苦手なのですか?

BabyVisionベンチマークでは、Gemini 3 Proなど最先端モデルでも約50%にとどまり、遮蔽された3D積み木のカウントでは最良モデルが20.5%、人間は誤答ゼロでした。視覚的に密集・重なりがある対象を一つひとつ識別する処理が、言語モデルの強みである文脈推論とは別系統の能力を要するためと考えられます。

本記事は The Decoder の報道を元に、事実に基づき独自に再構成したものです。

Count Anythingとは？群衆・衛星画像・医療まで数える清華大のマルチモーダルAIを解説

何が発表されたか

仕組み:領域ベースと画素ベースの併用

CLOCデータセットと性能

「数える」はAIの弱点だった

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

Kimi K3とは？2.8兆パラメータの中国製オープンモデルが示す「激安AIの終わり」

Inklingとは？元OpenAI CTOムラティ率いるThinking Machinesの初オープンソースLLMを解説

Qwen3.7-Plusとは？画面を見て操作するアリババの「マルチモーダル・エージェント」を解説