「AIが引用した参考文献」の約3分の2が存在しない文献だったり間違っていたりしたとの調査結果

サイエンス

現代では仕事や調べ物にAIを利用する人が増えていますが、AIは虚偽の内容を捏造(ねつぞう)したり誤情報を生成したりする幻覚(ハルシネーション)を起こすこともあります。OpenAIが開発した大規模言語モデル・GPT-4oを用いた調査では、専門的な内容を尋ねられたAIがどれほど幻覚を起こしやすいのかが明らかになりました。

JMIR Mental Health - Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study

https://mental.jmir.org/2025/1/e80371

Study finds nearly two-thirds of AI-generated citations are fabricated or contain errors https://www.psypost.org/study-finds-nearly-two-thirds-of-ai-generated-citations-are-fabricated-or-contain-errors/ 研究のために膨大なタスクを要求されている研究者の中には、大規模言語モデルを搭載したAIを活用しようと試みる人もいます。大手テクノロジー企業がリリースしているAIは、インターネットなどから取得した膨大なテキストデータで訓練されており、論文の要約やメールの下書き、コードの作成といったタスクをこなすことが可能です。

しかし、大規模言語モデルにはハルシネーションを生み出すリスクがあることも知られています。大規模言語モデルは実際には存在しない書籍や文献を捏造したり、誤った情報を堂々と主張したりすることがあります。 そこで、オーストラリアのディーキン大学心理学部の研究チームは、メンタルヘルスという特定の研究分野において、大規模言語モデルがハルシネーションをどれほどの割合で生み出すのかを調査しました。

研究チームはOpenAIが開発したGPT-4oを用いて、6つの異なる文献レビューを実施しました。これらのレビューは認知度と研究範囲の異なる3つの精神疾患に焦点を当てており、1つ目は「大うつ病性障害/うつ病(広く知られており、盛んに研究されている)」、2つ目は「過食症(中程度の認知度がある)」、3つ目は「身体醜形症(あまり知られておらず、研究も少ない)」でした。これらの認知度や研究量が異なる疾患にまたがって調査することで、訓練データ内の情報量が異なるトピックにおけるAIのパフォーマンスを測定できたとのこと。 研究チームは3つの疾患について、それぞれ「症状や社会への影響、治療法を網羅した記述を生成するように依頼するレビュー」と、「デジタルの健康介入のエビデンスに焦点を当てた専門的なレビュー」の2つをGPT-4oに依頼しました。研究チームはGPT-4oに対し、約2000語のレビューを生成することに加え、査読済みの学術文献から少なくとも20件の引用を含めるように指示しました。 GPT-4oがレビューを生成した後、研究チームはAIが引用した合計176件の引用文献すべてを抽出し、Google ScholarやScopus、PubMedを含む複数の学術データベースを用いて綿密に検証しました。引用文献は「捏造(出典が存在しない)」「誤りを含む真実(出典は存在するが出版年や巻数、著者などの情報が間違っている)」「完全に正確」の3つのどれかに分類され、研究チームは各疾患やレビュー内容に基づいて正確性をチェックしたとのこと。

分析の結果、176件の引用文献のうち35件、つまり全体の約5分の1が「捏造」されたものであることが判明しました。また、実際の出版物であることが確認された141件についても、ほぼ半数が少なくとも1つの誤情報がある「誤りを含む真実」であることが確認されています。全体として、GPT-4oが生成した引用文献のうち約3分の2が捏造されたもの、あるいは書誌的な誤りを含んでいました。 また、引用文献の捏造率は特定の疾患と強く関連しており、最も研究が進んでいるうつ病では捏造率がわずか6%だったのに対し、過食症では28%、身体醜形症では29%と捏造率が急増しました。これは、AIが学習データ内にそれほど多くないテーマの文献を引用する際の信頼性が低いことを示唆しています。 特に過食症のレビューについては、GPT-4oに生成させたレビューの内容も引用文献の捏造率と関連していました。過食症について書くよう指示された場合、概説的なレビューの捏造率は17%だったのに対し、専門的なレビューの捏造率は46%とはるかに高くなりました。 今回の研究は、あくまでGPT-4oという単一の大規模言語モデルを対象にしており、実験で用いられたのもメンタルヘルスのトピックに限られています。そのため、今後の研究ではより幅広いAIモデルとトピックについて検証することで、これらのパターンが広く当てはまるかどうかを調べることができます。 心理学系メディアのPsyPostは、「今回の研究結果が、学術界にはっきりと示唆することがあります。それは、これらのモデルを使用する研究者はAIが生成するすべての参考文献について注意を払い、人間による厳格な検証を行うことが推奨されるということです。さらにこの研究結果は、AIの支援を受けて論文執筆が行われる時代において、出版された研究の完全性を守るために、学術誌や学術機関が新たな基準やツールを開発する必要がある可能性を示唆しています」と述べました。

・関連記事 AIは「先生が言っていた」とか「短く説明して」といったワードを入力されると誤情報を生成しやすくなる、OpenAIやGoogleのAIモデルを対象にした幻覚耐性ベンチマークで判明 - GIGAZINE

AIにプログラミングさせる時に幻覚が発生しても大した問題にはならないという主張 - GIGAZINE

GPT-5のような大規模言語モデルがなぜ幻覚を起こしてしまうのかをOpenAIの研究チームが論文で発表 - GIGAZINE

コード生成AIによる幻覚を悪用した新しいサイバー攻撃「スロップスクワッティング」が登場する可能性 - GIGAZINE

生成AIの幻覚で指定される「架空のパッケージ」に悪用の危険性があるとセキュリティ研究者が警告 - GIGAZINE

MetaやCharacter.AIの「AIセラピスト」がユーザーにうそをつき無認可の医療行為を行っていると消費者団体がFTCに調査を求める - GIGAZINE

AIが生成した誤情報を別のAIが情報源として誤報をまき散らす悪循環がインターネットと創作を破壊している - GIGAZINE

AIを使った科学研究が注目を浴びる一方で膨大な間違いを指摘した「論文のファクトチェック」が無視されている - GIGAZINE

AIは人間よりも50%以上おべっかを使う確率が高く、これがユーザーのAI依存につながっているという研究結果 - GIGAZINE

関連記事: