AI幻覚は悪化の一途を辿り今後も続く:o3モデルはなぜ間違いが多いのか? (3/3)
では、なぜ最新モデルで幻覚が増えてしまったのでしょうか?
完全な答えはまだ出ていませんが、関係者や専門家はいくつかの仮説やコメントを寄せています。
OpenAIの技術レポートによれば、o3モデルは以前のモデルよりも出力する情報量(主張の数)が多い傾向があるといいます。
そのため正解も増えたが間違いも増えてしまった、というのが一つの見方です。
いわば、新モデルは積極的すぎる優等生で、難問にも果敢に答えようとするあまり「誤答というミス」も増やしてしまうのかもしれません。
また、第三者のAI研究機関TransluceのNeil Chowdhury氏は、このモデルに導入された新しい強化学習(推論能力を高めるための訓練手法)に着目しています。
「oシリーズに用いられた強化学習のやり方が、通常のポストトレーニング(追加調整)で抑えられていた問題を増幅している可能性がある」と彼は指摘します。
(※またTransluce の第三者評価でも o3 が「行っていないコード実行をでっち上げる」などの幻覚挙動を確認したと報告しています)
要するに、「考えるAI」にするための特殊な訓練プロセスが副作用として幻覚を悪化させているのではないか、という仮説です。
このように幻覚による創作は一見クリエイティブでも、信頼性を損ないかねないため、用途によってはモデルの有用性を大きく下げてしまいます。
先にも触れたように、法律事務所など厳密な正確さが要求される現場で、事実誤認や架空情報を頻繁に混入するAIはとても使えたものではありません。
では解決策はあるのでしょうか?
一つの有望なアプローチは外部の知識源に当たることです。
例えばモデルにウェブ検索をさせて最新の情報や裏付けを取らせれば、幻覚の頻度を下げられる可能性があります。
事実、OpenAIのGPT-4ベースのモデルにウェブ検索機能を組み合わせた実験では、先述の一般課題テストにおいて90%という高精度を記録したとの報告があります。
人間が確認作業をするように、AI自身に裏取りをさせるわけです。
ただしプライバシーやコストの問題もあり、すべてのケースで簡単に導入できる手法ではありません。
また、OpenAIは現在「モデルの幻覚問題に対処すべく継続的に研究開発を行っている」とも述べています。
今後、訓練データやアルゴリズムの改良によって徐々に幻覚を減らしていく努力は続けられるでしょう。
しかし、果たしてそれで十分なのかという声もあります。
言語学者のエミリー・ベンダー氏は、この問題について非常に厳しい見解を示しています。
「これは(基本的に)直せない問題だ」とベンダー氏は言い切ります。
巨大言語モデルは本質的に「言葉の統計的パターン」を生成しているに過ぎず、その技術的枠組みと我々が求める“真実を語るAI”という用途との間には埋め難いミスマッチがある、と彼女は指摘するのです。
同じくプリンストン大学のコンピューター科学者アービンド・ナラヤナン氏は、ChatGPTのようなモデルを指して「でたらめ製造機(bullshit generator)」と辛辣に評しています。
こうした専門家の目には、AIの幻覚現象は単なる不具合ではなく「現在のLLMが持つ宿命的な限界」と映っているわけです。
最新モデルで幻覚が増えてしまった事実は、この限界を改めて浮き彫りにしました。
一方で、幻覚の増加は必ずしもAIの「劣化」ばかりを意味しないという指摘もあります。
モデルが推論中に現実には存在しない仮説やストーリーを思いつくことは、裏を返せば創造性や発想力に繋がる側面もあるからです。
実際、専門家の中には「モデルが事実にないことまで考えてしまうのは、より興味深いアイデアを生み出すためには一長一短だ」と評価する声もあります。
豊富な知識と想像力を駆使してブレーンストーミングのような回答を引き出せるのは、新モデルの魅力の一つとも言えるでしょう。
しかし当然ながら、多くのユーザーにとっては正確さの方が何倍も重要です。
例えば法律事務所で契約書のドラフトを任せたAIが、流暢な文体で微妙に誤った条項を書き加えてしまったら大問題です。
創造性が求められる場面と厳密さが要求される場面では、AIに期待される振る舞いも異なります。
最新モデルはこの両極を行き来する「賢さゆえの不安定さ」を露呈したとも言えるでしょう。
OpenAI自身も「ハルシネーション問題の解消は継続的な研究課題」と位置付けており、根本的な解決策はまだ見出せていません。
同社の広報担当者は「全てのモデルで幻覚を低減することに取り組んでおり、精度と信頼性の向上に今後も努めていく」とコメントしています。
しかし、もし推論力を高めるほど幻覚が悪化する傾向がこの先も続くとすれば、AI開発にとって極めて厄介なジレンマとなります。
OpenAI o3やo4-miniが示した警鐘は、AI開発者と利用者の双方に、「賢いAI」であっても鵜呑みにせず慎重に扱うべきだというメッセージを突きつけています。
今後もモデルの改良と問題解決への挑戦が続く中、果たしてAIの幻覚癖は克服できるのか――その行方を私たちは注視していく必要がありそうです。