OpenAI渾身の新動画AI「Sora 2 Pro」を試す。空想は美しい映像となった

Photo: かみやまたくみ

2025年9月30日、OpenAIが新しい動画生成AI「Sora 2」を発表しました。大々的に発表が行われ、著作物のパロディが多数作られ権利的に問題があるのでは?という議論が発生。関連した生成が制限されるなどしています。

出たばかりのSora 2の使われ方は社会的に受け入れ難いものだと言えますが、実際使ってみて想像力は大いに刺激されるとは思いました。このAIを真っ当に使ったら、どれほどの制作──創造が可能なのでしょうか?

そう考えると気になってくるのが、Sora 2の“上位版”の存在です。おそらくは、AIを用いた映像制作の可能性を広げるフロンティアモデルとして訓練されているはず。…やっぱ最強?

OpenAIの新動画生成AI「Sora 2 Pro」を試してみました。

どんな動画が生成されるのか?

軽いプロンプトでも綺麗に生成

まず、雑にプロンプトを入れてどの程度生成できるのかを試してみました。基礎的なプロンプトの理解能力と描写性能を見るのが目的です。

プロンプト:巨大な水晶を日本刀で一刀両断する侍のショート動画。35mmフィルムで撮影、BGMなし、環境音あり、水晶が切断される際の気持ちいい音が響く。

結果はこちら(Blueskyに飛び、音ありの映像が再生されます。XでもYouTubeでもないのはOpenAIの競合なので、そのAI生成物をアップするとアカウントを停止される可能性がありそうだからです…)

Sora 2 Proで遊んでた。サムライ水晶カットASMR。[image or embed]

— des Esseintes (@desesseintes.bsky.social) 2025年10月8日 12:12

人物・小物・音響、すべてリアルで、破綻なく自然な感じで生成されています。描写力は相当な水準だと思いました。参考資料なし、Sora 2 Proの創造力頼みでこれですから。一刀両断感がないのは気になりますが、うまくまとまっているとは思います。

かなり厳密な指定が可能

次に、何をどう描写するかをより細かく指定して生成してみます。ユーザーの意図をどこまで反映できるかを見るのが目的です。

プロンプト:

{

"prompt": "A silver dragon sleeps on the surface of the moon. It awakens and flies off into the distance.",

"config": {

"camera": {

"angle": "Starts with a close-up shot, then transitions to a wide-angle view at the end.",

"movement": "Gradually zooms out to reveal the overall scene and shooting location."

},

"environment": {

"setting": "The surface of the moon.",

"elements": "A wrecked lunar landing craft, a torn American flag, and the distant Earth.",

"vibes": "Realistic and cinematic, Game of Thrones-like atmosphere."

},

"character": {

"type": "A dragon with a full silver body that shines with a muted glow. Its eyes are a deep, dark red.",

"action": "Sleeping peacefully, then awakening and taking flight.",

"surroundings": "The lunar surface scattered with remnants of human artifacts it has rejected, with Earth visible in the background."

}

}

}

結果はこちら。

月の竜。[image or embed]

— des Esseintes (@desesseintes.bsky.social) 2025年10月8日 12:15

プロンプトに記載した要素はすべて回収されており、かつ1カット1カット、違和感なく描かれています。

プロンプトでは相当細かい指定が可能です。というか、公式のプロンプトガイドはこんなもんじゃなく、もっとずっと厳密です。細部までこだわり抜いた生成が可能になっていて、めちゃくちゃいいですね。

適切に物理法則を曲げているのもいいなと思いました。杓子定規に解釈するなら、竜の羽ばたきなどの動作音は空気のない月面では聞こえませんが、フィクションが求められていると理解して生成していますね。

この例では試験的にJSON形式+英語でプロンプトを記述してみましたが、結論としては「指定したい項目がある程度わかりやすく書かれている」ならどのような形式でもよさそうです。日本語でも特に問題なさそうでした。

唯一気になったのが、出力解像度(1792×1024ピクセル)のわりに解像感がないこと。ボヤっとした感じがします。これはほとんど唯一くらい、性能面で気になったところです。

画像を元に生成すると超高精細に

とはいえ、「ボヤっと感がない映像」も生成もできるようになっていました。公式のプロンプトガイドで紹介されている、「1枚絵からの生成」を行うと、全体がきっちり締まった感じで生成されました。以下は、画像とプロンプトをセットで入力した例です。

今回使用した元画像。本当はリアルな映像にしたかったんですが、困ったことに「人物の写真」をベースにした生成には制限がかけられていましたImage: かみやまたくみ, generated with ChatGPT

元画像生成用プロンプト:以下のような画像を生成してください。

概要:

ガイコツがバーテンダーを務めているバーのイラスト

画風:

- ヨーロッパのヴァニタス画のような、写実的な油絵

画像の形式

- 縦長

配置:

画面中央:タキシードを着たガイコツがバーカウンターに立っている

カメラ位置:その手前で、見る者がカウンターに座っているかのようなPOV

レンズ:

超広角レンズ(12°)

主な被写体:ガイコツのバーテンダー

- 頭蓋骨や骨格などは綺麗に手入れされており、美しい白

- 黒の上着、白いシャツ、赤い蝶ネクタイ。胸ポケットに白いハンカチーフ。素材はいずれも絹で、滑らかさが見てとれる

- 右手を顎に添え、左手は腰に。

- こちらをじっと見つめている。

小物:

- バーカウンター

- バーカウンターはマホガニー製で年季が入っている

- 手前に毒々しい色合いの未知の酒類が瓶に入れられて並んでいる

- カメラの手前にお通しのナッツ。白い小皿に盛られている

- ガイコツの背後

- 未知の酒類がずらりと並んだ棚がある

- ウィスキー瓶、ワイン瓶など、多様な瓶を配置し、単調にならないようにする

- ところどころにヴァニタス画的なオブジェクトが置かれている

動画生成用プロンプト:

概要:

客(視聴者)に語りかける、ガイコツのバーテンダーのシーン

スタイル:

- ヨーロッパのヴァニタス画のような、写実的な油絵調のアニメーション

- 画像の形式: 縦長

動作:

- セリフ1: それでは…何を飲まれますか?

- セリフ2: といっても、ここには尋常ではない酒しかございませんが。

結果はこんな感じでした。

しゃべるガイコツがやってるバー。[image or embed]

— des Esseintes (@desesseintes.bsky.social) 2025年10月8日 12:14

元絵を極めて忠実に再現しているのが恐ろしい。生成AIは「いらんことをする」ことがありますが、Sora 2 Proにはこれがほぼありません。時間が進むにつれてディテールを勝手に変化させたりしないのです。

動く部分は少ないものの、動き自体は非常に自然です。元絵との整合性もとれており、3Dキャラクターやアニメ風のイラストを用いた生成でも威力を発揮するでしょう。そういった作品を作れる人こそが、このAIをもっとも活用できる人かもしれません。

また、この例では日本語のセリフを言わせてみましたが、声質の選択を含めてなかなか自然だと思いました(イントネーションが1カ所変なのは元々、音が切れているのはBlueskyの処理の問題です)。

超ハイクオリティを狙うのであれば、可能な限り画像+プロンプトで生成するべきです。元絵を用意する手間はかかりますが、プロンプトの記述を簡略化しやすいというメリットもあります。

デメリットと言えそうな点としては、元絵全体を動かすのは難しいことでしょうか。人物はある程度大きく動かせるのですが、元々配置されていた場所などにある程度固定されてしまう印象です。被写体の動きに合わせて背景を追従させる…とかはまったくうまく行きませんでした。アクション重視のシーン・雰囲気重視のシーンで、生成手法を使い分ける必要があるかもしれません。

オリジナル映像を制作するツールとして使えそう

以下、Sora 2 Proを触ってみた印象をまとめます。

1. 「人間が書いた指示」を忠実に守ろうとし、かつその行間を読んで破綻なく描写しきる力があります。全体の整合性をとる能力が非常に高く、以前のSoraとは別次元です。

2. 肝心要の「動き」の解釈・描写が自然で、かつ人の目で見て印象的です。今回入力したプロンプトはいずれも、動きの指定が大まかですが、人間の意図を汲み取り、良い感じに整合する映像を生成できています。

3. 音響の生成もすばらしいと思います。プロンプトで指定すれば、ほぼその通りに生成されます。セリフも一言一句、正確に読み上げます。

4. これらの能力はある程度、標準モデルの「Sora 2」も共通していますが、「出せる最大クオリティ」に差があります。Sora 2 Proのほうが高解像度での出力が可能で、より高精細で質感が感じられる映像が生成できるようになっています。

5. 総じて、利用価値のある動画生成AIになっていると感じました。慣れは必要で、テストや訓練も必要だと思いますが、今もっとも柔軟な生成が可能な動画AIのひとつではないかと思います。公式のプロンプトガイドは必読です。

6. 後述するように非常にハイコストなモデルなので「それでもこだわりを実現したい人向け」ではあります。

Sora 2 Proの利用方法

Sora 2 Proの利用方法は2つあります。

1. ChatGPT Proユーザーであれば、sora.comから利用可能(Soraアプリからは不可。今回はこちらで試しています)。定額で利用でき、回数制限も緩め(試した範囲だと20回/dayくらいまでは問題なく作れた)なのが魅力ですが、映像に「Sora」のロゴが入るというデメリットがあります。生成できる時間は10秒か15秒のいずれか(作り込むとなると長すぎる感がありました)。動画SNS「Sora」向けのチューンになっている感じです。

2. Sora 2とともにAPI利用が可能になっています。この場合、「生成する動画の秒数」と「生成する動画の解像度」に応じて料金が決まります。動画の秒数は4秒・8秒・12秒から選びます。作り込むならAPIからのほうがやりやすいでしょう。ロゴも入りません。サンプルコード等はこちらをご覧ください。

OpenAI | Models より筆者作成

Sora 2/Proのちがいは、生成できる解像度(Proは1792×1024ピクセルでも生成できる)と料金(生成する動画の長さ×秒単価)です。縦長・横長のどちらもいけて、生成される映像が音ありな点は共通です。入力はテキストと画像です(動画は不可)。

こちらの利用法でもっとも重要なのは、画像・動画のAI生成でデファクトスタンダードとなっているツール「Comfy UI」から利用できる点です。本気で利用を検討される方は公式ドキュメントなどを確認してみてください。

Sora 2 API Node is now in Comfy!Resolutions:- Sora-2: 720 x 1280, 1280 x 720- Sora-2 Pro: 720 x 1280, 1280 x 720, 1024 x 1792, 1792 x 1024No watermarks!Lengths: 4s, 8s, or 12s pic.twitter.com/xeDkcfgGvZ

— ComfyUI (@ComfyUI) October 8, 2025

Source: OpenAI (1, 2), Comfy UI, Mashable

関連記事: