論文でたまに見る「ヘンテコ用語」。AIのカンチガイが原因でした

このヘンテコ語の出元はコレ。華麗にカラムをまたいでドッキングしたまま広まってしまった

ネットの膨大な論文を貪り読んで勉学に励むAIがヘンテコ用語を量産し、巡り巡って論文に大量に反映されている...ことがRetraction Watchの調べでわかりました。

「ヘンテコ用語」というのは、たとえば「vegetative electron microscopy」といったもの。

そのまんま訳せば「植物性電子顕微鏡」ですが、そんな用語は世界中どこを探しても存在しません。もっともらしい技術的な響きではあるのですが、まったくもってイミフ。なのに、論文やAIの回答、ピアレビュー済みの学会ジャーナルにまで出てくる摩訶不思議ワードです。

何がどうなってこんなことになっているの⁉とRetraction Watchが調べたら、なんと細菌細胞壁に関する 1959年の論文に2カラムまたいで「vegetative electron microscopy」と見える部分があり(画像上)、これをAIがうっかりくっつけて認識しちゃったのが事のはじまりであるっぽい...ことがわかったのです。

よっく見つけたな…。執念の成せる業。

「digital fossil(デジタル化石)」のいい例

このようにAIトレーニング用データの地層に埋もれたエラーが後日出土する現象を「digital fossil(デジタル化石)」と呼びます。

エラーはエラーでも埋もれてしまってるので、AI研究班がThe Conversationで語っているように「人間の知の蓄積から取り除くことは不可能に近い」のが特徴です。

最初は単純ミス

50年代に「Bacteriological Reviews」誌に掲載された2つの論文を何十年か後にスキャンしてデジタル化するとき、レイアウトに惑わされてスキャン用ソフトが左カラムの「vegetative」と右カラムの「electron」をつなげちゃったのがエラーのはじまりでした。

いわゆる「tortured phrase」。つまり人間の裸眼で見るとバラバラなのに、ソフトウェアや言語モデル的にはひとつながりのフレーズに「読み取って」しまう。それが残ってしまったというわけ。

誤訳が追い打ちに

Retraction Watchによると、「vegetative electron microscopy」というヘンテコ用語が再び日の目を見たのは2017年と2019年、イランの論文複数に現れたときのこと。最初の論文掲載から実に70年近くが経過してからでした。まさに化石出土とは言いえて妙。

このときにはペルシャ語の翻訳ミスも重なってそのまま学術用語の記録に残ってしまったみたい(ペルシャ語で「vegetative」と「scanning」はソックリ同じ見た目で違いは点1個。仮にvegetativeをscanningと空目した場合、「scanning electron microscopy」とひとつながりに読んでも何の違和感もない。それもあって校正の目をすり抜けてしまった)。

単純なエラーもAIで世界中に広まってしまう

誤訳は人力エラーでも、ウェブに広めたのはAIのしわざ。現に研究班が各種AIモデルに論文2つの要約をお願いしたら、ヘンテコ用語混じりの回答をブレることなくキッチリ返してきたというから侮れません。

OpenAIのGPT-2とBERTみたいな古いモデルではそのようなことは見られなかったので、ヘンテコ用語が混入した時期のおおよその目星はつきます。

「GPT-4oやAnthropicのClaude 3.5などの最新モデルでもエラーは消えてなかった」とのこと。「ヘンテコ用語がAIの知識に永久に埋め込まれてしまった可能性は充分ある」と研究班は報告していますよ。恐ろしや~。

ちなみにAIモデルにヘンテコ用語がフィードされたのは「CommonCrawl」(ネットをスクレイピングして集めた巨大なデータレポジトリ)経由らしいというところまでは掴めたんですが、CommonCrawlのデータはペタバイト単位の膨大なもの。問題解決しようにも、大手テック企業に属さない外部研究員には手の施しようがありません。ましてやAI各社はトレーニング用データの開示を拒む体質があるので、それも壁となります。

さらに論文掲載を競うパブリッシャー側が間違いをすんなり認めないことも、事態をややこしくしています。大手パブリッシャーのElsevierが「vegetative electron microscopy」という誤記の訂正に応じたのは、謎な用語を正当化してそのまま押し切ろうと四苦八苦した揚げ句のことでした。

AI由来の訂正といえば、Frontiersジャーナルも昨年、ラットの生殖器のヘンテコ画像(AI生成だった)を削除したばかり。ハーバードケネディスクールの「Misinformation Review」が今年報じたところによれば、学会のための検索エンジン「Google Scholar」 にまで「似非科学」は広まっていて、何が本物で何がニセモノなのかますます見分けがつかなくなってきているみたいですよ?

AIで研究がはかどるのはうれしいけど、エラーが混入するのはちょっと…。研究員は大変だぁ…。以上、デジタル化のエラーの残骸がネットのデータに化石のように埋もれていて、掘っ返して潰そうにも潰しようがない、というお話でした。

関連記事: