無料の動画生成AI「Wan2.2」が凄すぎる PCローカルでこの品質が出せるとは

中国・アリババの動画生成AIモデル「Wan2.2」がすさまじい性能を発揮しています。業界を席巻しそうな雰囲気を感じました。 【もっと写真を見る】

 7月28日に公開された中国・アリババの動画生成AIモデル「Wan2.2」がすさまじい性能を発揮しています。ローカルPC環境で利用できるオープンモデルとして公開されましたが、ヘタな商用AIクラウドサービスを超えていると感じさせるほど、高品質なAI動画が生成可能です。2月リリースの「Wan2.1」でも高い評価を得ていましたが、それを遥かに超えており、業界を席巻しそうな雰囲気を感じました。   ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください   実写もアニメも高性能    Wan2.2の性能の高さは触れば触るほどわかってきます。カップ麺、箸、麺など、複数のオブジェクトが関わるため、画像や動画生成AIでは一般的に苦手といわれてきたテーマであっても、破綻なく描写ができます。対象物との関係性が問われる銃を撃つアクションをさせてみましたが、こうした課題も見事に乗り越えています。どちらも、過去この連載で作成した作例モデルキャラの「明日来子さん」を最初の画像に指定して、i2v(Image-to-Video、画像からビデオ)により生成しています。     △明日来子さんが、カップラーメンとハンバーガーを食べている動画。作成はWan2.2 I2V-A14B(後述)を使用。効果音は動画に合わせて任意の音を付けてくれる「MMAudio」で作成(以下、同じ)     △明日来子さんが、銃とライフルを構えて発砲する動画。撃った後にニヤリとしたり、背後の人が振り返って見ているのは、プロンプトで指定している    実写系だけでなく、アニメ系など、画風が異なるものでも描写力は高いです。複雑なプロンプトを認識できるようで、対象物、動き、美的なニュアンス、ライティングを詳しく記述すると、それに合わせて忠実に動画が生成されます。プロンプトは英語と中国語で記述する必要がありますが、公式なアナウンスはされていないものの、日本語も認識します。ただしプロンプトとしては、ネイティブ言語の中国語が最も効果が大きいという報告もあります。     △アニメ・イラスト系の作例いろいろ。ベース画像はMidjourneyで作成し、Wan2.2 I2V-A14Bを使用し、832x480で作成   140億パラメータの「14B」が圧倒的    Wan2.2は、140億パラメータの14B(ファイルサイズ合計は約126GB)と、50億パラメータの5B(ファイルサイズ合計は約34GB)の2種類が公開されています。どちらも、AI生成の定番アプリの「ComfyUI」が正式サポートしており、環境を整えてくれるテンプレートが用意されています。5Bは小さなサイズのVRAMでも動作する軽量タイプです。ただ、性能を比べると14Bの方が圧倒的に高いです。     △Wan2.2 i2v 5BのComfyUIのワークフローのデフォルト設定で生成した動画。プロンプトは「地下鉄でギターを弾いている」。特に後ろの人に注目すると人体の描写が不自然だ    Wan2.2はWan2.1に比べて、動画の学習データをWan2.1のときから83.2%増、画像データは65.6%増と学習データの量が大幅に増えています。    さらにWan2.2は、特徴的な生成方法を持っています。生成段階の初期のノイズが荒い状態を生成する「Highモデル」と、その結果を引き継いで品質を引き上げる「Lowモデル」の二段階で生成する仕組みです。これを「MoE(Mixture of Experts:混合専門家モデル)アーキテクチャーを採用している」と説明しています。この方式のメリットは、140億パラメータのウェイトモデルを2種組み合わせることで、280億パラメーター相当の大規模な推論を実現しながらも、モデルを2種類に分けることで、合計のファイルサイズを小さくできることです。これにより、VRAMの搭載量が少ないローカルPC上での動作を実現するわけです。   14Bモデルも軽量化・高速化で扱いやすく    とはいえ、14Bは元のサイズが非常に大きく、HighモデルとLowモデルがそれぞれ約57GBもあり、合計すると約114GBにも達します。そのため、筆者のNVIDIA RTX 4090(VRAM24GB)のローカルPC環境であっても、ロードするデータ量がVRAMからあふれかえり、メモリがスワップしてしまいます。当初の公式ワークフローの環境では、4秒の動画を生成するために80分もかかってしまいました。そのため、リリース直後はとても使い物にならないという印象でした。    ただ、ユーザーにより、14Bのデータを量子化してファイルサイズの圧縮が図られたGGUFファイルがすぐ登場しました。筆者が利用している14B Q4は(Qは量子化の圧縮率を示す)モデルは、それぞれが約9GBとなるため、合計で約16GBとなり、他のファイルも含めて480pのサイズの生成であれば、RTX 4090のVRAMサイズにギリギリ収まります。    さらに、高速化技術「Lightx2v」のWan2.2対応版LoRAも登場しました。この技術は、北京航空航天大学といった中国の研究者や、中国の主要AI研究機関の一つ商湯科技研究院(SenseTime Research)開発者を中心に開発されている高速化のオープンソースフレームワーク「ModelTC」の1つです。効率的な生成を可能にする蒸留技術を組み合わせ、劇的な高速化を実現します。    Light2XVは、Wan2.2の動画生成には40~50回(ステップ)の生成プロセスを必要としますが、それをわずか4~6ステップまで短縮します。ステップの多さは、そのまま生成にかかる時間に直結します。GGUFファイルを導入し、LoRAとしてLight2XVを導入し、生成サイズを832x480にすることで、RTX 4090のローカルPCで4秒の生成にかかる時間は3分を切るまで短くなります。ステップ数を減らすことは、動画の大きな動きの抑制が起こりがちになるという弱点もあるのですが、圧倒的な扱いやすさは、それらを補うに余りあるものです。   360度回転画像が完璧!ヌードも出せる    Wan2.2は、潜在的な応用範囲が非常に広いことも明らかになりつつあります。たとえば、人物の画像を360度回転させる動画も、LoRAなしでほぼ完璧にできます。元画像から、その画風まで含めて、本来存在しないはずの裏面を見事に描いて見せるのです。これは推論能力の高さの証明でもあります。360度回転が実現できると、三面図などの作成が容易になり、さらにその画像をリファレンスにすることで、一貫性を保った動画を作成したり、高品質な3Dモデル化を可能にするなど、様々な用途が出てきます。    また、ヌードのような動画も出力できます。ヌードは、人体の形状や動きを正確にAIが理解するためには、必須だと考えられています。Wan2.1のときには、出力結果がおかしなものが出ることがあり、学習時に制限がかかっていると感じられていたのですが、Wan2.2ではそういう制限は入っていないようです。また、クラウドのサービスの場合は、その生成内容から出力時に制限がかかることが多いのですが、ローカルPCで扱えるために、そうした制限なく扱えるのです。もちろん、出力結果にはユーザーの責任が伴うことに、より注意を払うことが必要です。     △イラスト風から、実写風、フィギュア風など様々な画風のキャラクターを360度回転させたもの。プロンプトは「character preview 360-degree rotation」   ついに「始点」「終点」も指定可能に    学習結果に大きな制約が課せられていない素直なモデルは、今後の追加の技術開発も実現しやすくなると考えられます。8月3日には、ComfyUIが、終点フレームを指定できる機能を拡張したワークフローの提供を開始しました。これにより、表現の幅が一気に広がることになりました。    実際にその機能を使って作成したのが、明日来子さんが土手を歩いている次の作例です。    この動画は、独Black Forest Labsの画像生成AI「Flux.1 Kontext [dev]」を利用して作成した人物の複数の角度の画像を作成し、Midjourneyで作成した背景に組み合わせることで、始点と終点を作成しています。(参考:“一貫性”がすごい画像生成AI 冬服夏服も一発変換 話題の「FLUX.1 Kontext[dev]」 )    そして、キャラクターと背景のフィット感を生み出すために、7月29日に「Adobe Photoshop」ベータ版に搭載された新しいAI機能の「調和」機能を使い、画像をなじませています。そしてWan2.2で動画を生成すると、「若い女性が歩いている」とプロンプトで指定するだけで、補完するように間のフレームをつないでくれます。    ローカルPCを使って、完全にAIで作成した画像だけで、かなり複雑な動画を作成できる時代になっているのです。     △明日来子さんの風景動画。白い模様もベース画像をMidjourneyで作成し、Wan2.2で動画化して、「Premiere Pro」で合成している。Topaz Video AIを使い、画像サイズを2倍化、フレームレートを16から60にアップスケールしている。音楽はSunoで作成   導入には「EasyWan22」がおすすめ    また、有力なユーザーにより、Wan2.2に任意のポーズなどを認識させるControlNetを対応させる技術開発もすでに進んでいます。    導入にあたっては、Zuntanさんの「EasyWan22」の環境が迷わず設定できておすすめです。5Bも14Bのどちらにも対応しており、5BはVRAM 8GBのビデオカードの環境でも動作が確認されているため、最初の導入はかなり簡単です。    アリババはクラウドサービスも展開しており、1回5秒の生成にかかる利用料は約30円となっています。この価格設定は、他のAI動画サービスと比べても比較的安いため、今後の選択肢に入ってくるのではないでしょうか。   AI動画が本格的に映像制作に使える段階に    これほど高性能にもかかわらず、オープンモデルで公開されているWan2.2は、今後、動画生成AIのあり方を変える要因になっていくでしょう。ローカルPC環境で自由で作れる強みは、試行回数を気にせず、いくらでも生成できるという点にあり、また、今後LoRA開発などが進みカスタマイズの容易さも魅力的なポイントとなってくるでしょう。クラウドサービスでは得られない自由度の高さは、新しいイノベーションを引き起こしていくことになるはずです。AI動画はいよいよ本格的に、映像制作に使える段階に入ってきています。       筆者紹介:新清士(しんきよし)   1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。   文● 新清士

アスキー
*******
****************************************************************************
*******
****************************************************************************

関連記事: