AI幻覚は悪化の一途を辿り今後も続く:o3モデルはなぜ間違いが多いのか? (2/3)
今回のOpenAI社から発表された報告書では、モデルの幻覚傾向を定量的に測るテストをいくつか実施しています。
その代表が次の2つの課題です。
1つ目は有名人や歴史上の人物に関する質問で構成された人物課題で、人物についての知識の正確さと架空の経歴や事実を語ってしまわないかを評価します。
2つ目は百科事典的な事実を問う多岐選択の質問4000問からなる一般課題で、各モデルが事実を正しく答えられるか(正答率)と、誤った情報をどれだけ含んだか(幻覚率)を測定します。
評価指標としては、正答率が高いほど事実を正しく答えていることを意味し、幻覚率は低いほど望ましい(幻覚=不正確な情報の混入が少ないこと)と定義されます。
幻覚率の比較 / Credit:OpenAI o3 and o4-mini System Card上のグラフは、これらテストの結果を示しています。
人物課題(左)における旧モデルと新モデルの幻覚率を比較しており、最先端モデルのOpenAI o3(赤)は、質問に対し約33%の頻度で幻覚を起こしました。
これは一世代前のモデルo1(青)の約16%と比べてほぼ倍増しています。
さらに小型版モデルのo4-mini(緑)では48%と、回答のほぼ半数が幻覚混じりという深刻な値が報告されました。
一方で人物課題の正答率はo3は59%と、o1の47%よりやや向上していました。
またより一般的な知識を問う一般課題(右)では、幻覚率は51%(o3)対44%(o1)とわずかに新モデルの方が悪化する結果でした。
一般課題の正答率はo3の49%とo1の47%でほぼ同等でした。
しかしo4-miniは一般課題においても正答率20%・幻覚率79%と極めて不安定でした。
これまでの研究でモデルの規模が小さいほど知識が乏しく幻覚を起こしやすいことが知られており、o4-miniの不振は「小型ゆえの限界」と説明できます。
しかし、高性能なはずの大モデルo3までもが先代より幻覚率で劣るという事実には、研究者たちも首をひねっています。
「新しいモデルほど幻覚は減る」というこれまでの漸進的改善の流れが、ここにきて崩れてしまったように見えるからです。
この異例の結果に対し、OpenAIは「なぜこのようなことが起きているのか現時点では分かっていない」と述べています。
社内レポートでも「さらなる研究が必要」と認めており、今後原因の解明に取り組む姿勢が示されています。
この社内テスト結果は業界に衝撃を与え、外部の第三者機関も独自検証を行いました。
非営利AI研究機関のTransluceによるテストでも、o3の幻覚傾向が確認されています。
例えば、質問に答える過程で「ChatGPTの外部で2021年製のMacBook Pro上でコードを実行し、その結果をコピーした」とAIが語ったケースが報告されました。
もちろん現実には、ChatGPTの範囲外で勝手にコードを動かすことなどできません。
これはモデルがあたかも自分でプログラムを走らせ検証したかのように架空のプロセスをでっち上げた例です。
また他のテスト利用者からは、回答中に提示されたウェブリンクをクリックすると存在しないURLであることが頻繁にあったとの指摘もありました。
著者の個人的な印象でも、o3モデルにおいて明白な幻覚がみられました。
資料作成や論文作成のときに関連研究の論文名とそのリンクや掲載された科学雑誌を生成させると、o3はもっともらしいURLや雑誌名を提示するものの、実際にクリックすると存在しないページだったり全く違う雑誌名であったという例が頻繁にみられました。裏付けとなる出典リンクが示されると安心しがちですが、それがデタラメな捏造リンクや間違った科学雑誌では信用性はゼロです。
要するに、新モデルはさも本当らしい詳細を饒舌に語るものの、その一部は現実には裏付けのない作り話だったというわけです。
興味深いことに、こうした欠点と裏表の関係にあるように、新モデルはタスク遂行能力自体は飛躍的に向上しています。
たとえばプログラミングや数学の問題では旧モデルを大きく上回る正確さを示し、画像の解析やマルチステップ推論でも最先端の成績を記録しました。
しかし事実性・信頼性の面では従来モデルより劣るというトレードオフが生じているのです。
業界からは「この傾向はAIモデルの信頼性に対する不安を掻き立てる」との声も上がっています。
特に回答の正確さが重視される医療・法務などの分野では、「高度なo3よりも、あえて旧世代のo1の方が安全ではないか」と指摘する専門家もいるほどです。
実際、OpenAIの従来モデルGPT-4oをWeb検索と組み合わせた実験で高精度が報告された例もあり、外部ツールで事実確認を行うことが幻覚抑制の有効策になるのではと期待されています。
一方で、新モデルはツールを駆使しても肝心の事実誤りが減っていないため、今後の課題が一層浮き彫りになった形です。