AIモデルは医療分野で役立たず?--LMArenaが性能改善へ一手(ZDNET Japan)

 学術文献ではAIの進歩が数多く報告されているにもかかわらず、医療分野においては、全ての生成AIプログラムが「安全かつ正確な出力」を提供することに失敗している――。こうした厳しい評価が、スタートアップ企業DataTecnicaと、米国国立衛生研究所(NIH)内のアルツハイマー病および関連認知症センター(CARD)による新たな報告書で示された。  この結果は、特に懸念すべきものである。というのも、現在では多くの人々が「ChatGPT」のようなボットに医療に関する質問を投げかけており、研究によれば、たとえ誤った内容であっても、人々は医師の助言よりもAIの医療アドバイスを信頼する傾向があるからである。  今回の研究では、OpenAIの「GPT-5」をはじめ、Google、Anthropic、Metaの複数のモデルを比較し、医療科学に特化したベンチマーク「CARDBiomedBench」を用いて評価した。その結果、「実際のバイオメディカル研究における性能は、依然として十分とは言えない」と結論づけられている。  CARDBiomedBenchは、バイオメディカル研究における大規模言語モデル(LLM)の性能を評価するためのQ&A形式のベンチマークスイートであり、2025年にDataTecnicaとCARDの研究者によって共同開発されたものである。  この報告書では、医学における知識のギャップが明確に指摘されている。DataTecnicaとCARDによれば、「現在のどのモデルも、バイオメディカル研究者が求める推論力や専門的知識の要求を安定的に満たしていない」という。  報告書は、現在のモデルが医学の基準を満たすにはあまりにも「あいまいで緩すぎる」と断じている。  「この根本的なギャップは、汎用(はんよう)AIの能力と、専門的な科学コミュニティーのニーズとの間に広がるミスマッチを浮き彫りにしている。バイオメディカル研究者は、複雑で進化し続ける知識と現実世界への影響が交差する領域で活動している。彼らが必要としているのは、正しそうに“聞こえる”モデルではなく、洞察を引き出し、誤りを減らし、発見のスピードを加速させるツールである」  この研究結果は、医療に関連する他のベンチマークテストの結果とも一致している。例えば、OpenAIが5月に発表した「HealthBench」というテストスイートでは、医療状況や症状に関するテキストプロンプトが用いられ、チャットボットに質問される可能性のある内容が評価された。この研究でも、「コスト調整された性能や信頼性を含め、性能は時間とともに向上しているものの、健康関連の会話やワークフローにおける現在のモデルの能力には、依然として大きな改善の余地がある」とされている。  一方、エモリー大学医学部の研究者らが8月に発表した研究では、「MedQA」のような一般的な医師知識を問うテストにおいて、LLMが進歩を見せていることも報告されている。ただし、これらのテストはCARDBiomedBenchとは異なるスコアリング方式を採用しており、CARDBiomedBenchが対象とするような医療科学のトピックはカバーしていない。  このベンチマークの取り組みをさらに発展させるため、DataTecnicaはAIモデルのランキングを提供するLMArena.aiと提携した。両社は共同で「BiomedArena」と呼ばれるリーダーボードの拡張を計画しており、ユーザーが複数のAIモデルを比較し、どのモデルが最も優れているかを投票できる仕組みとなる。  BiomedArenaの特徴は、一般的な質問ではなく、医療研究に特化した内容を対象としている点にある。これは、汎用的なリーダーボードとは異なるアプローチである。  BiomedArenaの取り組みは、すでにNIHの内部研究プログラムにおいて活用されている。そこでは、科学者たちが従来の学術研究では対応しきれないような、規模や複雑性、リソースの要求が高い「ハイリスク・ハイリターン」のプロジェクトに取り組んでいる。  LMArenaのチームによれば、BiomedArenaは「実験データや文献の解釈から、仮説の生成、臨床応用に至るまで、バイオメディカル分野の発見の現場に根ざしたタスクと評価戦略に焦点を当てる」とされている。  なお、米ZDNETに寄稿するWebb Wright氏が6月に報じたところによれば、LMArenaはもともとカリフォルニア大学バークレー校の研究イニシアチブとして「Chatbot Arena」という名称で設立され、その後、同校やa16z(Andreessen Horowitz)、Sequoia Capitalなどから資金提供を受けて、正式なプラットフォームへと発展した。  しかし、この新たなベンチマークの取り組みには、今後の課題も存在する。  第一に、医師との共同研究では、AIモデルが「ゴールドスタンダード」とされる医療情報のデータベースに接続されることで、その有用性が劇的に向上することが示されている。専用のLLMが、最先端の汎用モデルを上回る性能を発揮するのは、こうした情報へのアクセス能力、すなわち「エージェント型」のアプローチがあるからである。  しかし、今回の発表では、LMArenaとDataTecnicaがこの側面にどう対応するのかは明らかにされていない。AIモデルが外部リソースをどう活用するかを評価しない限り、このベンチマークの実用性は限定的なものになる可能性がある。  第二に、医療に特化したLLMは現在も多数開発されており、Googleが2年前に発表した「MedPaLM」プログラムなどがある。BiomedArenaがこうした専用モデルを評価対象に含めるかどうかは不明である。これまでのところ、評価は汎用の最先端モデルに限定されている。  もちろん、LMArenaとDataTecnicaがそのような選択をするのは妥当である。しかし、それによって、医療AIの分野で進められている重要な取り組みの多くが評価の対象外となってしまうことも事実である。 この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan
*******
****************************************************************************
*******
****************************************************************************

関連記事: