画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論
Claude Codeを使って作成した巨大ネコが東京で寝ている画像(筆者作成)
AnthropicのAIエージェント環境「Claude Code」の席巻が続いています。Claude Codeは、プログラミング領域で最も注目を集めていますが、AIエージェントとして、汎用的な能力も持っています。その一つとして、Claude Codeを使って、ローカルPC用の画像・動画AI用のディファクトスタンダードの「ComfyUI」を操る方法をご紹介します。すでにAI用のプロンプトは、人間が設計するよりも、AIに設計させたほうがより優れた結果を生み出しやすいという状況に変わりつつあります。Claude Codeを活用することで、画像AIから動画AIまでをまとめて制御することができます。
※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください
Claude Code×ComfyUI
2024年6月にComfyUIが独立して以来、着実に機能拡張が進んでいます。ComfyUIにはワークフロー(Workflow)という概念があり、UI上でノードベースで視覚的に扱えるため、どのようなステップで生成作業が進行するのかの一つ一つを把握することができます。これはJSONというテキストで記述されています。自由度が高く、柔軟性も高いため、単純に画像を出すだけのものから、画像を何枚も読み込んで、その画像を修正し、さらには、LLMと連携させ、動画やマンガを作り出すといった、複雑な作業を一気に作り上げることもできます。
そして、特殊な機能を追加できる「カスタムノード」を自由に開発して公開することもできるため、開発者コミュニティから、次々に便利にするための専用機能が追加されていきました。しかし、その柔軟さは、絶えず複雑化を引き起こす要因にもなりました。様々な便利なワークフローが公開されるようになりましたが、カスタムノードが依存関係やバージョン違いなどでトラブルを引き起こすようになり、簡単に動かないことに、筆者自身も何度も直面するようになりました。そして、それらのノードを分析してどうすれば動くようになるのかを理解することも大変です。
これは、本来は簡単に扱えるようにと始まったものが、初心者が触るための難易度が引き上がる要因になっています。
しかし、WorkflowがコードであるJSONで記述されているということは、AIが得意なプログラミング作業と同じように扱うことができることも意味します。
ComfyUIの画面。画像を生成するだけだとシンプルなのだが…
ウェブサイトで利用しているChatGPTのようなLLMの場合、外部への接続機能は持たされていません。検索作業なども、あくまでクラウドサービス内で完結しています。
ところが、Claude Codeの場合は、ローカルPC上で動いている他のソフトウェアに、直接命令を出すことができます。つまり、ComfyUIのようなツールを、人間がUI上で操作する代わりに、Claude Codeがテキスト指示だけで動かせるのです。本体である自分以外の手足を持つことができるのです。それがエージェントAIとしての強さを作り出します。
Claude Codeが、ComfyUIと同じPC環境にある場合、何の設定をしなくとも、Claude CodeはComfyUIを直接操ることが可能です。ComfyUIはサーバとして立ち上がっているため、外部からの命令を受け取って、実行することが可能です。まず、Claude Codeから、ComfyUIが見えているかを、AIに聞いてみましょう。もし、IPアドレスやポート名を聞かれた場合には、設定のネットワークのページを参照し、IPアドレスは127.0.0.1、ポートは8000という基本設定を教えます。事前にComfyUIを起動しておきます。無事に接続できると、操作可能であると返してきます。
ComfyUIのネットワークの設定画面(赤線は筆者による)
Claude CodeにComfyUIへの接続を確認させているところ。A6000搭載のPCでComfyUIが動作していることが確認できている
本記事はアフィリエイトプログラムによる収益を得ている場合があります