Discordの20億件以上のメッセージが公開APIを使ってスクレイピングされオンラインで公開されてしまう、2015年から2024年まで3167サーバー分
ブラジルのミナス・ジェライス連邦大学の15人の研究者チームが、研究プロジェクトの一環としてDiscordのスクレイピングを行い、20億件以上のメッセージをデータベース化してオンラインに公開しました。研究チームはデータを匿名化したと伝えています。
Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)
(PDFファイル)https://arxiv.org/pdf/2502.00627Researchers Scrape 2 Billion Discord Messages and Publish Them Online
https://www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-online/ 研究チームは公開されている3167のサーバーのデータを取得し、2015年から2024年までに、473万5057人によって交わされた、20億5220万6308件のメッセージを収集して、JSONファイルとして公開しました。Discordのサーバーはユーザーが自由に作成できるものであり、公開または非公開に設定することが可能で、ユーザーはDiscordの「発見」機能を使って公開サーバーを見つけることができます。 研究者たちはこの発見機能を使ってすべての公開Discordサーバーをマッピングしようと試み、2024年11月17日時点で合計3万1673のサーバーを発見したとのこと。そして、そのうちの10%のサーバーを無作為に選んでスクレイピングしたといいます。
研究チームいわく、データベース化の目的は「他の研究チームがメンタルヘルスや政治について研究したり、ボットを訓練したりする際に使用できるようにするため」とのこと。研究チームは「我々のデータセットによって、デジタルプラットフォームが政治的言説に与える影響や、誤った情報が広がる様子、そしてそのような環境に合わせた効果的なモデレーションや規制戦略を研究することができる」と記しています。 研究チームはチャット履歴を公開するに当たりユーザー名を書き換え、ユーザーIDやメッセージをハッシュ化して切り捨てるなど安全に配慮したと説明しています。 ただし、確かに誰でも見られるサーバーから取得した情報ではあるものの、Discordは基本的には狭いコミュニティにおけるコミュニケーション手段として用いられるため、公開サーバーの情報が文字通り公開されてしまうことを想定していない人がいると一部の人は指摘しています。
テクノロジー系メディアの404 Mediaは「研究者たちはデータを匿名化したと主張していますが、自分のDiscordメッセージがオンライン上の公開ファイルに保存されていることを快く思う人はいないでしょう。利用規約を読む人はほとんどおらず、Discordのユーザーの多くは子どもであることに留意すべきです。Discordは何よりもまず、ゲーマーがコミュニティを組織するためのプラットフォームであり、子どもたちは自分が何気なく発したジョークが公開データベースに登録されることになるとは考えもしないでしょう」と述べました。
なお、Discordの開発者ポリシーには「Discordにより特段の許可が与えられている場合を除き、APIで取得されたメッセージの内容を機械学習またはAIのトレーニング(大規模言語モデルを含む)に使用してはなりません」「Discordサービスにおいて、またはこれを介して、利用可能ないかなるデータ、コンテンツ、情報もマイニングまたはスクレイピングしてはなりません」と書かれているほか、利用規約でもスクレイピングを禁止する文言があります。このため、今回の研究はプライバシー上の懸念以前に、そもそも利用規約に反しているようだと404 Mediaは指摘しています。
・関連記事 6億人以上のDiscordユーザーをスパイしていた「Spy Pet」が閉鎖される、Discordは法的措置を検討 - GIGAZINE
「執拗なAIスクレイピングがインフラストラクチャに負担をかけている」とWikimedia財団が発表 - GIGAZINE
任天堂がポケモンの情報を大量リークしたDiscordユーザーの個人情報の開示を求める - GIGAZINE
Discordが13歳未満の児童を性的・暴力的コンテンツから守る機能が不十分だとして州司法長官から提訴される - GIGAZINE