重力などの物理法則を理解するAIモデル、Metaが発表--「机から転がったボールは床に落ちる」など(CNET Japan)
この新しいモデルにより、ロボットが環境の変化をより正確に予測し、柔軟で適切な判断を下せるようになる可能性がある──。 Metaが今週新たに公開した生成AIモデルは、機械が物理世界を理解する方法を根本から変える可能性がある。これにより、より知的なロボットの登場をはじめ、多くの分野で革新的な展開が期待されるという。 今回発表されたオープンソースの新モデルは「Video Joint Embedding Predictive Architecture 2(V-JEPA 2)」と呼ばれ、重力や「物体は視界から消えても存在し続ける」という物体恒常性のような物理世界の基本原則をAIに直感的に理解させることを目的としている。 Metaは公式ブログで次のように語っている。「私たちはこの研究成果を公開することで、世界中の研究者や開発者が最高のモデルや基準に触れられるよう支援し、AI研究の進展を加速させたい。その結果、人々の暮らしを豊かにする、より強力で有能なAIシステムの実現につなげることを目指している」 従来、AIが物理環境と関わるには、膨大な量の動画やラベル付きデータに依存している。しかしこの新モデルでは、物体がどのように動き、どのように相互作用するかという物理法則そのものを重視している。そのため、たとえば「テーブルから転がり落ちたボールは床に落ちる」といった、人間が直感的に理解できる物理的概念をAIが捉えられる可能性がある。 Metaによれば、このモデルは自動運転車やロボットといったデバイスに大きなメリットをもたらす可能性がある。あらゆるシナリオを一から個別に学習させる必要がなくなり、人間が未知の状況に柔軟に適応するのと同じようなAIが実現可能になるという。 物理系のAI開発で常に問題となってきたのは、膨大な訓練データを用意するためにかかる多大な時間とコストだ。今年開催されたSXSWでも、専門家たちがこうした課題を解決するために、AIが生成した「合成データ」を使って、従来型の学習モデルでも予期しない状況に耐えられるようにする方法を示していた。 (たとえば街中の橋から大量のコウモリが飛び出してくるなんてことを、AIは普通の訓練データでは想定していない。だからこそ、合成データでそうしたシチュエーションも“体験”させる必要があるということだ) Metaは、今回の新モデルが従来のような膨大なデータに頼らないことで、現実世界での実用化がはるかにシンプルかつ効率的になると説明する。 同社は今後の展望として、時間や空間の異なるスケールを横断しながら学習・推論・計画が可能なモデルを開発し、さらに複雑な課題にも対応できるようAIを進化させていく方針だ。 また、視覚だけでなく聴覚や触覚といった複数の感覚を組み合わせた「マルチモーダルモデル」の研究を進めることで、AIがより人間に近い感覚で現実世界を捉えられるようになることを目指すという。 この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。