何が発表されたか
清華大学を中心とする研究チームが、画像内の物体を数えるマルチモーダルAI「Count Anything」を公開しました。コードはGitHubで配布されています。群衆カウント、衛星画像の建物計測、医療スキャン、細菌コロニーといった、従来は用途ごとに専用システムが必要だった領域を1つのモデルで扱える点が特徴です。
仕組み:領域ベースと画素ベースの併用
Count Anythingは、Metaの事前学習済みモデル「SAM3」をベースに、カウント用の小さなアダプターを追加する形で構築されています。モデル全体を再学習しないため、計算コストを抑えつつ汎用性を確保しています。
推論では、大きく明瞭な物体には領域ベース(バウンディングボックス)、小さく密集した物体には画素ベース(点打ち)という2系統を併走させ、結果を1つの点集合に統合します。両者が同じ対象を指した場合は、信頼度の高い予測のみを残すルールで二重カウントを防いでいます。
CLOCデータセットと性能
学習には、既存の単一目的データセットを統合・ラベル整理した新データセット「CLOC」が用いられました。約22万枚の画像、619カテゴリ、1500万ラベル、6つの視覚ドメインを含み、テキスト誘導カウント用としては最大規模とされています。
ベンチマークではCountGD、CLIP-Count、Grounding DINOを上回り、クエリされたカテゴリあたりの誤カウントは平均約9個、最良の競合モデルはその2倍以上の誤差でした。一方、純粋な群衆カウントでは専用システムにわずかに及ばず、曖昧な語や極端な密集・遮蔽シーンには弱いという限界もあります。
「数える」はAIの弱点だった
別途公開されたBabyVisionベンチマークでは、フロンティアモデルの多くが3歳児平均を下回り、Gemini 3 Proでもスコアは50%前後、遮蔽された3D積み木の数え上げでは最良モデルでも20.5%という結果でした(人間は誤答ゼロ)。LLMにとって「正確に数える」ことが依然として困難であることを裏付けており、Count Anythingのような専用設計の価値はここにあります。
💼 事業会社視点:これは自社にどう効くか
「数える」は地味ですが、業務に直結するAIタスクです。日本企業で具体的に効くのは次の領域です。
小売・EC・店舗運営:来店客数、棚の在庫数、陳列フェイス数の自動カウントは、これまでカメラベンダー個別開発でした。汎用モデルが実用域に入れば、内製のBI部隊でもPoCが回せます。ただし群衆カウントは専用機に劣るため、レジ前混雑検知のような高精度要件は既存ベンダー継続が無難です。
製造・物流:パレット上の段ボール数、部品点数、出荷ラベル数といった検品工程は、Count Anythingのようなテキスト誘導型と相性が良い領域です。SIerは「SAM3+アダプター」構成を1つの提案テンプレートとして持っておくと、PoC期間を大幅に短縮できます。
医療・農業・インフラ:衛星画像の太陽光パネル枚数、農地の作物本数、病理画像の細胞数など、これまで領域別スタートアップが個別に解いていた市場が、単一基盤に統合されつつあります。受託SaaS事業者は「縦割りの数えるサービス」をそのままの値付けで売り続けるリスクを点検すべきです。
経営判断としては、(1)社内の「人が数えている業務」の棚卸し、(2)Count AnythingのGitHub実装での小規模PoC、(3)精度限界(密集・遮蔽・曖昧語)を踏まえた業務切り分け、の3点を今期中に着手する価値があります。