何が公開されたのか
The Atlanticの記者Alex Reisner氏が、生成AIの学習に使われている音楽データセット4種を特定し、自社サイト「AI Watchdog」上で検索可能なデータベースとして公開しました。2つは1,200万曲・900万曲という巨大規模で、残り2つも各10万曲超を含みます。これらは数千回ダウンロードされており、GoogleとStabilityは研究論文の中で利用を認めています。Lady Gaga、Radiohead、Wu-Tang Clan、Bruce Springsteen、実験音楽家のHainbachまで、ジャンルを問わず幅広いアーティストの楽曲が含まれます。
「リンクのリスト」という抜け道
注目すべきは取得手法です。4つのうち3つは、楽曲そのものではなくYouTubeやSpotifyへのリンクのリストとして配布されています。AI開発者は自動化ツールで音声を一括ダウンロードしますが、その一部はログイン認証・広告・クリエイターへの収益還元の仕組みを意図的にバイパスする設計になっています。Reisner氏が指摘する通り、これらは明確にプラットフォームの利用規約違反です。
なぜ重要か
Free Music Archiveのように「個人視聴は無料/商用利用は要ライセンス」という素材も、AI学習という商用目的に流用されています。つまり**「公開=学習利用可」ではない**という当然の前提が、データセット配布という形式で骨抜きにされてきたわけです。AI Watchdogは書籍など他メディアの学習データも追跡しており、今後はデータセットごとに「どの作品が、誰の同意なく使われたか」を権利者が個別に検証できる状況に変わります。
💼 事業会社視点:これは自社にどう効くか
日本の事業者が今すぐ点検すべき3点
1. 生成AI導入企業(特にEC・広告・SaaS)はサプライチェーン責任を負う 音楽生成・BGM自動付与・動画編集SaaSなどを業務利用している国内事業会社は、ベンダーに「学習データの出所開示」を求めるフェーズに入りました。検索可能DBの登場で、権利者からの照会が個別アーティスト単位で届く可能性が現実化しています。
2. 受託開発・制作会社はクライアントへの説明責任が重い クライアント向け納品物にAI生成音源を含める場合、「Google・Stabilityですら利用を認めたデータセット」が学習元にある以上、納品時の表明保証条項を見直す必要があります。曖昧な「AI生成です」では済まなくなります。
3. コンテンツホルダー側(音楽レーベル・出版・映像)は反転攻勢の材料を得た これまで「学習データは不透明」が泣き寝入りの理由でしたが、検索可能DBは交渉カードになります。日本のレコード会社・JASRAC関連事業者は、AI Watchdogの手法を国内楽曲にも適用させる連携を検討する価値があります。