【西川和久の不定期コラム】動画生成AIが2年前から驚異的な進化を遂げたので、ハロウィンっぽいMVをぜ～んぶAIで作ってみた

アクセスランキング

Special Site

PC Watch をフォローする

おすすめ記事

　2025年夏から秋にかけて、動画生成AIが一気に進化した。そこで今回は「Sora2」などメインどころをピックアップしながらその進化をご紹介。最後にハロウィンっぽいMVをすべてAIで作ってみる。

　今年(2025年)秋の状況を説明する前に軽く2023年、2024年も振り返ってみたい。まず2023年12月にi2v(Image to Video)の「Stable Video Diffusion」が登場した。それまでも「AnimateDiff」もあったが、本家のStability AIから出た意味は大きい。

Stable Video Diffusion。1,024x576, 25fps

　ただご覧のように動画とはいえ紙芝居状態。これでも当時はかなり盛り上がった。なお掲載している動画はすべて後処理でフルHDにアップスケールしている。あらかじめご了承いただきたい。

　2024年秋は、サービス系のHailuo AIとローカルのAI PCで生成できる「Mochi Preview」を紹介している。

Hailuo AIで生成した動画7本を連結

Mochi Previewで生成した動画3連結。2つ目以降は崩れている

　サービス系のHailuo AIは、1つ5秒とは言えそれなりに出ている。対してMochi Previewは、初めの車はともかくとして以降は全然ダメだ。同じ頃にオープンな「Hunyuan-Video」もあり、こちらは結構マシだったとは言え、サービス系に勝てる感じではなかった。このように2024年秋はまだサービス系とオープン系で結構な開きがあった。

　そして2025年夏、オープン系ではWan 2.1と2.2が続けてリリース。この時点でやっと去年のサービス系に追いついた感じだ。

Wan 2.1 i2v

Wan 2.2 i2v

　サービス系では「KlingAI」、Midjourneyの動画対応、そのほか数えきれないほどいろいろ出ており、すでにこのレベルは超えている。筆者の感覚的にはオープンなモデルは半年から1年遅れている感じだろうか。

　とは言え、ここまでは程度の差こそあれ、基本的にテキストから動画か、画像から動画。音はあっても効果音程度(Veo 3を除く)。似たり寄ったりだった(もちろん一部リップシンクなどもあり)。

　そんな中、異様な進化をとげたのが2025年9月末にOpen AIからリリースされたSora2だ。当初は招待制でiPhoneアプリとWebからのみ。後日APIでの利用も可能になった。特徴としては、

縦/横、10/15/25(ChatGPT Proユーザーのみ)秒対応
参照画像対応。ただしリアルな人の顔が写っているのはフェイク対策上NG
remixes。公開している(Drafts未対応)動画に対してPromptで一貫性を保ったまま別バージョンを作る
cameo。アカウントが使用するiPhoneから顔と声を登録して動画に登場できる
短いプロンプトや参照画像からシナリオ、シーン、セリフなどを自動的に考え生成

　筆者が中でも興味深いのが4と5だ。4は従来t2v(Text to Video)で顔LoRAを使うか、i2vで顔が写っている画像を用意すればできる。ただし前者は似ているとは言え気持ちAI的。後者は顔だけでなく衣服や背景も引きずり、かつ一貫性が保てなくなると崩れる。

　ところがこのcameoは、iPhoneで顔の正面左右を撮影、2桁の数字を3つ読み上げる(日本語で良い)だけで、顔も声も酷似する。制限上筆者が作例になってしまうのはお許し願いたいが、本人が驚くほど顔も声もそっくり。何も知らない知人が見れば間違いなく本人のリアル映像と思ってしまうだろう。

　加えて、この顔/声データは公開レベルが本人のみ、許可したユーザー、フォロワー、全体と設定でき、たとえば公開している誰かと誰かが話しているような映像も生成可能。実際サイトの中にはこの手の映像が溢れており、特にOpen AIのSam Altman氏が全体公開していることもあり、いじられまくっている(笑)。

1秒ごとに構図を変え、ハッピーハロウィン！と一言

remixes。3つ連結。1つ目の動画から一貫性を保ったまま曲調を変更したもの2つ生成

参照画像あり。冒頭一瞬見えるのが参照画像で(筆者の)ギター。このギターのCMを作ってもらった

cameo。筆者がカメラマン役で登場(笑)

　5は、筆者の推測であるが、与えたPromptや参照画像からLLMがシナリオ、シーン、セリフなどを考え、それをエンジンに送っていると思われる。歌詞付きの音楽なども凄まじいレベルだ。実際作例をご覧になるとお分かりだとは思うが、従来型だとどう頑張ってもこうはならない。

　もちろんザックリなプロンプトだけでなく、秒単位での指定、セリフ、カメラアングル、動き……など、詳しく書けばそれに準じた動画も生成する。

　いずれにしても透かしがなければもうAIか？本物か？見分けがつかないレベルになってしまった。

　APIを使えば透かしがなくなり、後日対抗馬？としてVeo 3.1もリリースされたが、remixesやcameoがない分、サイト版Sora2のインパクトには及ばない。

Sora2 Pro(API)。プロンプトは後述するMVの歌詞をそのまま入れてみた

Veo 3.1(API)

　意外な伏兵が「Grok Imagine」。XやGrokのアカウントがあれば気軽にt2i、i2vが楽しめ、しかも速く結構な数が作れる。またNano-Bananaのような画像編集機能もある。少し前までクオリティ的にイマイチだったが、ここに来てそのクオリティもグッと上がった。

　GrokでImagine(WebUI)かCreate Videos(iOS)を選び、プロンプトで画像を作り、必要であればそこから動画も生成。また画像はユーザーが用意したものをアップロードして使うことも可能だ。つまり前者はt2i2v、後者はi2vとなる。

　動画生成時はプロンプトに加え、プリセットのNormal/Fun/Spicy(t2vのみ)が用意され、コントロール自由。さらにセンシティブに関してはかなり寛容だ。ほかのサービス系では絶対通らないワードも普通に通り反映される。プロンプトにセリフを入れれば話すことも可能(英語のみ)。

Grokのiv2で作った動画を4つ連結したもの

　この動画は筆者がQwen-Imageで作った画像から動画へ変換。4つつなげたものだ。かなり自然に動いているのが分かる。これだけの動画が追加費用なしで作れるなら使わない手はないだろう。

　さて、ここまでが2023年冬から現時点での(いろいろ大物も抜けているが)超ザックリな動画生成環境となる。どれも去年からぐっとレベルが上がり、パッと見ではもうリアルな動画と区別がつかないほどになっている。

　しかし、表題の“ハロウィンっぽいMVをすべてAIで作る”は無理。理由は声や楽曲を与えることができないからだ。上記はすべてテキストか画像を入力。音に関しては入力できず、これではMVを作りようがない。

　つい先日t2s+i2v(テキストから声を生成、+参照画像で動画へ)の「Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation」がComfyUIに乗ったのでこれを試してみた。

　入力は映像全体を構成する参照画像。もちろん話すので人(でなくてもいいが)が必要。喋る内容はPromptで指示する。<S><E>に囲まれた分がセリフだ。これで生成すると以下のような動画となる。

A woman exclaiming <S>Now we can generate videos with audio, locally!!<E>. <AUDCAP>Clear female voice speaking dialogue, subtle outdoor ambience.<ENDAUDCAP>

ComfyUI上でOviを動作させるWorkflow

確かにNow we can generate videos with audio, locally!!と喋っている

　これはこれで面白いのだが、5秒で英語だけではMVは作れないので却下。

　次に試したのがWan2.2-S2V。サウンドからビデオ生成、最大720P@24fpsに対応する。

　MVを作るなら楽曲がないと話にならない。これに関しては定番のSUNOを使った。与えたプロンプトは、

k-pop, happy ハロウィン dance Japanese song

たったこれだけ(笑)。いくつかできたのだが気に入った一曲は“Pumpkin Parade”。

SUNOのWebUI

Wan2.2-S2VのWorkflow

　実は作った順番は後述するOmniHuman Proが先、こちらが後だったので、どう作ったのかは後にして結果だけ。イントロとAメロ(途中まで)をそれぞれ音源と画像を別に用意し生成、できた動画をマージしている。RTX5090で720p/16fpsの15秒が420秒。加えてかなり熱を出し、重い処理となる。

“Pumpkin Parade” MV(途中まで)。Wan2.2-S2V版

　いかがだろうか？指先など細かい部分は怪しいものの、歌詞に合わせたリップシンクはもちろん、リズムに乗って体も動き、MVっぽくなっている。これがローカルのAI PCで生成可能になるとは、少なくとも今年前半では思っても見なかった。

　Wan2.2-S2Vはある程度できても……ということもあり、実は先にSousakuAIのAIアバター(OmniHuman Pro)を使っている。このサービスが主に扱っているのはByteDance系のモデル(Sora2やVeo 3.1にも対応)。日本国内に拠点を持ち、画像/動画ともNSFW対応という、商用としては珍しい特徴もある。

　AIアバターの仕様は、

参照画像1枚。生成する動画はこれに準拠
セリフの場合はプロンプト入力可能。音源がある時はMP3などをアップロード(最大30秒=動画の尺)
キャラクターの動作は別途プロンプトで指定

　となっている。つまりMVを作るにはまず、音源をイントロ、Aメロなど、キリがいいところでカットする必要がある(ただし最大30秒)。

　何かGUIなツールがあれば簡単なのだが、手元になく、iMoveやQuickTime Playerで切るのも面倒……ということで、Claude Codeを使ってプログラムを作り、AI的にカットすることにした(笑)。指示はこんな感じだ。

#### 6パス構成

1. Pass 1: BPM・ビート・小節検出

2. Pass 2: 小節ごとの音響特徴量抽出（RMSも含む）

3. Pass 3: セクション境界検出

4. Pass 4: セクション長調整（隙間なし）

5. **Pass 5: 境界微調整（静かな場所を探す）** ★新規

6. Pass 6: MP3カット・保存

　Pass 5は、ジャストで切るとビートが乗ることもあり、マージするとポップノイズが出るため。従って前後で音量の一番低いところでカットするようにしている。実際解析した結果はこの通り。これでちょうどいい感じにカットしたMP3の用意はできた。ただし、このAI判定によるMP3カッター自体はまだ未完成。曲によっては動かなかったりする。

AI解析して得た“Pumpkin Parade”の構成。Vocal/Inst、Partも綺麗に出て、かつ30秒以内に収まっている

　次に映像に使うリファレンス画像。これはClaudeを使い、歌詞から印象的な部分を4つ選び、それをUpscale(想像)しつつプロンプトにしてもらった。結局使ったのは3つのみだったが、これはこれで面白かった(笑)。

Claudeへ歌詞を入れ、そこからイメージする4つをPromptへ

Claudeが曲からイメージして作ったプロンプト1で生成した画像

Claudeが曲からイメージして作ったプロンプト2で生成した画像

Claudeが曲からイメージして作ったプロンプト3で生成した画像

SousakuAI AIアバター

QuickTime Playerでマージ。境界で音のつながりが悪い時は若干調整

　また今回は使わなかったが、たとえば同一シーンの別カットが欲しい時はQwen-Image-Edit-2509、SeeDream4、Nano-Bananaなど画像編集系で作れば簡単だ。

　MVは曲丸ごとだと2分26秒。いろいろ大変なので、イントロ、Aメロのみで構成することにした。結果は以下の通り。

“Pumpkin Parade” MV。SousakuAI AIアバター版

　いかがだろうか？楽曲、画像、映像すべてAI生成のMVとなる。正直細かいところがまだまだで、修正したいのはやまやまなのだが、これをし出すと時間もクレジットも溶けてしまうので(笑)、いったんここで止めておきたい。