ASCII.jp:グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen

Qwen-Image-Edit-2509を使って3枚の写真風の参照画像で作成したブティックのイラスト風の様子(筆者作成)

 画像生成AIでの一貫性のある表現を巡る各社の競争が激しくなる中、9月に公開されたアリババの画像生成AI「Qwen-Image-Edit-2509」の性能が注目されています。グーグルの「Nano Banana(Gemini 2.5 Flash Image)」の競合モデルです。オープンモデルなので、ローカルPC上でも動作可能というのが最大の利点です。特定の人物の服や小物を総入れ替えしたり、人物の背景やポーズを入れ替えたりと、様々なことができます。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

アリババの最新画像生成モデル

 「Qwen-Image-Edit-2509」は、アリババが展開する画像生成AI「Qwen Image」シリーズの1つです。8月に「Qwen-Image-Edit」をリリースしたばかりでしたが、3枚までの複数枚の画像入力や、ControlNetにも対応するなど、機能を大幅に強化したアップデート版として登場しました。人物、アイテム、背景を一度に扱えるため、活用の幅が一気に広がりました。

 オープンモデルのため、アプリ環境の「ComfyUI」に読み込みローカルでも動かせます。テンプレートに追加されており、高速化のための環境も組み込まれているため、動作させるまでは迷うこともなく簡単です。安定動作にはVRAM 16GBを搭載する環境が必要ですが、量子化(軽量化)されたバージョンを使うと、VRAM 8~12GBでも動作します。一回目のモデルのロードには非常に時間がかかりますが、一度読み込んでしまえばNVIDIA RTX 4090の環境で、生成時間は1枚当たり20~30秒程度です。

 参照画像を3枚まで組み込むと以下のようなことができます。1枚目の人物(左)に、2枚目の服装(右上)、小物のバッグ(右下)を参照させることで、服装を着ている状態の画像を手軽に作ることができるのです。人物の顔や体形、髪形など、すべての一貫性を維持したまま、完成画像を作り出すことができています。こうしたアパレル画像への応用は、一貫性の実現で期待されるものの重要なものの1つでした。

この連載の作例モデル「明日来子さん」に“秋服コーデ”をした状態。服とバッグはMidjourneyで作成。プロンプトは「1枚目の人物に、2枚目の服装を、3枚目のカバンを肩に持たせて、ジーンズなし、笑顔」

 性能の高さをわかりやすく理解できるのが、キャラクターの四面図を自動作成できるアプリ「Qwen-Image-2509-CharacterSheet」です。エンジニアのとりにくさんがHuggingFaceの「Space」機能で無料公開しています。アプリでは、全身像の画像1枚から、ほぼ完璧な四面図を作ることができます。アニメ風でも、実写風でも、そのどちらでも問題なく描写できます。

 これまで四面図の作成には専用のLoRAを使うのが一般的でしたが、それをQwen-Image-Edit-2509の能力だけで実現しているそうです。もちろん、ComfyUI上でプロンプトを設定すれば、ローカル環境でも同じことができます。

Qwen-Image-2509-CharacterSheetの実際の画面。上が入力画像で、四面図を生成してくれる

今連載の作例モデル明日来子さんでの出力例。右中央のコーヒーを飲んでいる画像を参照させて、四面図を生成している。元画像の顔がはっきりしないので、顔はあまり似ていない

関連記事: