日本語対応&超高速コード生成も可能な拡散大規模言語モデル(dLLM)「Mercury」が登場

ソフトウェア

スタンフォード大学、カリフォルニア大学ロサンゼルス校、コーネル大学の教授陣により設立された新世代の大規模言語モデル(LLM)を開発するAIスタートアップのInception Labsが、拡散モデルを取り入れた次世代LLMの拡散大規模言語モデル(dLLM)となる「Mercury」を発表しました。Inception Labsによると、Mercuryは世界初の商用規模のdLLMとのことです。

Introducing Mercury, our General Chat Diffusion Large Language Model

https://www.inceptionlabs.ai/introducing-mercury-our-general-chat-model

[2506.17298] Mercury: Ultra-Fast Language Models Based on Diffusion https://arxiv.org/abs/2506.17298

Mercury: Ultra-Fast Language Models Based on Diffusion

https://arxiv.org/html/2506.17298v1

Inception Labsは次世代のdLLMとなるMercuryを発表しました。MercuryはGoogleが開発した深層学習モデルのTransformerを介してパラメーター化され、複数のトークンを並列して予測するようトレーニングされています。

拡散モデルは画像を生成するための最先端のアプローチとして登場した技術で、一貫して高品質かつ多様なコンテンツを制作することが可能です。拡散モデルが従来の自己回帰モデルに対して持つ利点は、並列生成が可能であること(つまり、処理速度が速い)や、きめ細やかな制御・推論・マルチモーダルデータ処理能力を有している点にあります。しかし、拡散モデルを高いパフォーマンスを維持したまま、LLMの規模にスケーリングすることはこれまで大きな課題とされてきました。

これに対して、Mercuryは同等の自己回帰モデルと比較して最先端のパフォーマンスと効率性を実現したdLLMとなっています。Inception LabsはMercuryを「初の汎用チャットモデル」と表現しており、これまで以上に幅広いテキスト生成アプリケーションに対応できるようになっているとのことです。

なお、このMercuryをコーディングに最適化したものが「Mercury Coder」です。Inception Labsは2025年2月末にMercury Coderをリリースしており、「一般的なAIモデルよりも最大10倍高速なテキスト生成が可能」と宣伝していました。

ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 - GIGAZINE

生成AIモデルの比較ベンチマークを公開しているのArtificial Analysisによると、MercuryはGPT-4.1 NanoClaude 3.5 Haikuといった軽量モデルと出力速度を比較すると、7倍以上高速です。 以下のグラフは各AIモデルの出力のクオリティ(縦軸)と出力速度(横軸)を比較したもの。MercuryはGPT-4.1 NanoやClaude 3.5 Haikuといった軽量モデルと同等の品質の出力を、7倍も高速に出力できます。

Inception Labsは「Mercuryは言語モデルの拡散ベースの未来に向けた次のステップであり、現世代の自己回帰モデルを非常に高速で強力なdLLMに置き換えるものです」と語りました。

Mercuryは出力速度が速いというだけでなく、低遅延(レイテンシー)という特性も持っています。そのため、翻訳サービスからコールセンターのエージェントまで、高い応答性が求められる音声アプリケーションへの利用も期待できます。以下のグラフは実際の音声エージェントプロンプトのエンドツーエンドレイテンシーを示したもの。比較対象はCerebras上で動作するLlama 3.3 70Bです。Llama 3.3 70BがCerebrasのカスタムハードウェア上で動作しているのに対して、Mercuryは標準的なNVIDIA製GPU上で動作しているにもかかわらず、大幅に低いレイテンシーを記録しているのがわかります。

Microsoftはウェブ上で自然言語を用いた対話型のインターフェースを実現するための基盤となるオープンソースツールのNLWebを発表しました。このNLWebをMercuryと組み合わせることで、実データに基づいた超高速で自然な会話を実現することが可能です。以下のグラフはMercury、GPT-4.1 Mini、Claude 3.5 Haikuで対話型インターフェースを作成した場合のプログラムの実行時間を比較したもの。Mercuryは競合AIモデルよりもはるかに高速に動作しながら、スムーズなユーザーエクスペリエンスも実現可能です。

MercuryはInception Labsのデモサイトで試すことができるだけでなく、OpenRouterPoeでも利用可能です。

Mercury Playground

https://chat.inceptionlabs.ai/

なお、Mercuryの利用料金は入力100万トークン当たり0.25ドル(約36.5円)、出力100万トークン当たり約1ドル(約146円)です。ただし、先着1000人の学生および研究者は、入力1000万トークンおよび出力1000万トークンを無料で利用可能です。

Inception Platform

https://platform.inceptionlabs.ai/docs#models

・関連記事 ノイズから単語を抽出して爆速なコード生成が可能な拡散型の言語モデル「Mercury Coder」 - GIGAZINE

OpenAIが「GPT 4.1」のAPIを公開、100万トークン対応と実用性能で飛躍的進化を遂げた次世代AIモデル - GIGAZINE

MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮 - GIGAZINE

チャットAI「Claude」にPCを自動操作する機能が追加される&「Claude 3.5 Sonnet」の性能向上版と軽量モデル「Claude 3.5 Haiku」も登場 - GIGAZINE

AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵 - GIGAZINE

関連記事: