「正解率99%のAI」でも信じてはいけない? 専門家が指摘する“深い問題”

 大規模言語モデル(LLM)は進化を遂げ、人間が書いたものと見分けがつかないほど、自然で完璧な文章を生成できるようになった。その結果、文法の誤りといった従来の手法で偽情報を見抜くことは、もはや不可能に近い。  こうした脅威が深刻化する中、偽情報の検出手法の根本的な見直しが進んでいる。AI(人工知能)技術が生成した偽情報がどのような問題を生んでいるのか、その対抗策として何が有効なのかを、シンポジウムでの議論を基に解説する。

 オランダの数学・情報科学研究所であるCentrum Wiskunde & Informatica(CWI)が2025年5月に開催した、偽情報とLLMに関するシンポジウムでは、AI技術による偽情報の脅威が深刻化している3つの領域として、以下が挙げられた。 ・コンテンツファーム:品質が低いコンテンツを大量に生産すること。LLMの発展によって、偽情報を含む文章を大量に自動生成できるようになった。 ・LLMの脆弱(ぜいじゃく)性:LLM自体が持つ、バイアス(偏見)やハルシネーション(幻覚)といった根本的な弱点。新しい脆弱性が見つかると、それを悪用した手口も巧妙になる。 ・マイクロターゲティング:特定のコンテンツを、特定の興味や思想を持つ人々特定のグループに狙い撃ちで届けること。LLMで大量に自動生成した文章を、だまされやすい人々にピンポイントで届けられるようになった。  シンポジウムの主催者の一人であるCWIの研究者、ダビデ・チェオリン氏は、中でもコンテンツファームを最も懸念していると指摘する。「LLMを使って文章を生成することは非常に容易である一方、そうして生成された文章の偽情報を人間が見抜くことははるかに難しい」  ライデン大学(Leiden University)でサイバーセキュリティを教えるトミー・ファン・スティーン氏は、偽情報の検出をますます困難にしている原因は「根本的な非対称性」にあると話す。作成の簡単さと検証の困難さが釣り合っていない点が問題だということだ。「この不均衡を簡単に是正することはできない」と同氏は説明する。  巧妙なコンテンツ生成と精密なターゲティングが結び付くと、偽情報対策はさらに難しくなる。「悪意のあるLLM製文章が、特定のグループを効果的に狙い撃ちできた場合、その行為を見つけて検出することは一層困難になる」とチェオリン氏は述べる。不特定多数ではなく特定のグループに向けて拡散することで、セキュリティ専門家を含む外部の人間が偽情報に気付きにくくなると同時に、偽情報を信じやすい人に向けてより効果的に情報を届けられるようになるからだ。  このような巧妙な偽情報に対処するには、検出方法を根本的に見直す必要がある。チェオリン氏は、単なる精度よりも透明性を重視した、説明可能なAIモデルを提唱する。「精度85%で説明可能なAIモデルと、精度99%でブラックボックスなAIモデルのどちらを選ぶべきか」と問われた同氏は、次の問いを投げ掛けた。「精度99%のブラックボックスなAIモデルを、99%の時間、本当に信頼できるだろうか」  ブラックボックスなAIモデルにおける1%の不正確さは、ランダムな誤差ではなく、AIモデルの構造的なバイアスを示している可能性がある。透明性がなければ、企業はAIモデルにある欠陥を特定したり対処したりできない。透明性の高いAIモデルであれば、不備がある可能性のある領域を特定し、改善策を講じることが可能だ。  この考え方は、AIモデルのバイアスを評価するという、より広範な課題にも通じる。「われわれは現在、AIモデルのバイアスを評価、測定するための基準を検討している。こうした基準は、エンドユーザーがAIモデルから受け取る情報の質を理解する助けになる」(チェオリン氏)

TechTargetジャパン
*******
****************************************************************************
*******
****************************************************************************

関連記事: