匿名AIのデザイン勝負を判定して「デザイン能力の高いAIランキング」を作れる「Design Arena」

レビュー

AIの性能は「難しい数学問題をどれだけ正確に解けるか」や「人間と見分けがつかないほど自然に会話ができるか」といった多様な視点で測定されています。「Design Arena」はAIのデザイン能力に焦点を当てたテストで、「匿名のAIの優劣を判定する」というテストを繰り返してAIのデザイン能力を測定しています。誰でもアカウント登録不要でテストに参加できるので、実際にDesign Arenaのテストに参加しつつ各AIの順位も確認してみました。

Design Arena

https://www.designarena.ai/ Design Arenaにアクセスすると、画面上部に入力エリアが表示されます。この入力エリアに「AIに依頼したいデザイン内容」を入力して送信ボタンをクリックすると、ランダムに選ばれた4種のAIがデザインを生成してくれるという仕組みです。今回は「パン屋のウェブサイトを作って。店名は『GIGAパン』です」と入力してみました。

規約への同意を求められたら、よく読んでから「I Understand and Agree」をクリック。

まず、ランダムに選択された4種のAIのうち2種で生成処理が行われます。

生成結果が表示されたら、「こっちの方が好み」と感じた方の「Vote as Winner」をクリック。この時点ではAIの正体は明かされません。今回は、右側のAIはそもそもデザインを生成できていないので、左側を勝者としました。

続けて残り2種のAIでも生成処理が行われるので、しばらく待ちます。

生成結果が表示されたら、勝者を選びます。デザインの好みは人によって異なるので、数値での評価ではなく「どれだけ人に好かれやすいデザインを作れるか」という実態に即した結果を得られるというわけです。

組み合わせを変えて勝敗を尋ねられるので、もう一度勝敗を選択。

さらに選択。

勝敗選択画面は合計5回表示されます。

5戦とも勝敗を選択すると、結果画面が表示されます。今回は「GPT-5 (Minimal)」が1位となりました。

下方向にスクロールすると、どのデザインがどのAIだったのかが一覧形式で表示されます。さらに下には他のユーザーが提示したお題の結果が表示されています。

Design Arenaのトップページの下部にはこれまでの勝敗から算出されたランキングが表示されています。1位は勝率73.7%の「Claude Opus 4.1 (Thinking)」でした。

ランキングはカテゴリ別にも算出されています。ウェブサイトのデザイン能力では勝率73.6%の「GPT-5 (Minimal)」が1位でした。

・関連記事 月締めの会計業務をAIモデルにやらせてみるベンチマーク「AccountingBench」の結果とは? - GIGAZINE

キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能 - GIGAZINE

GPT-5やGrok 4など各種AIのIQテスト対決の結果が公開中&各AIが政治的に左寄りなのか右寄りなのかテストした結果も公開中 - GIGAZINE

GPT-5発表時のチャートがむちゃくちゃすぎてAIによるバイブコーディングにちなんで「VIBECHART」と言われて炎上 - GIGAZINE

PCのAI性能を測定できるベンチマークアプリ「MLPerf Client」を世界的なAIベンチマーク機関「MLCommons」がリリース - GIGAZINE

関連記事: