AIベンチマーク「自転車に乗ったペリカンを描く」をLLama 3.3 70BやGPT 4.1にやってもらうとこうなる

メモ

AIの性能を測るベンチマークはいろいろとありますが、その中でちょっと変わったものがエンジニアのサイモン・ウィリソン氏考案による「自転車に乗ったペリカンを描かせる」というもの。2025年6月に開催されたAIエンジニアワールドフェアの基調講演で、ウィリソン氏が最新の「自転車に乗ったペリカン」を報告しています。

The last six months in LLMs, illustrated by pelicans on bicycles

https://simonwillison.net/2025/Jun/6/six-months-in-llms/ ウィリソン氏が2024年12月にまとめた「自転車に乗ったペリカン」ベンチマークの内容は以下。

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ - GIGAZINE

それから6カ月、サンフランシスコで開催されたAIエンジニアワールドフェアの基調講演で、ウィリソン氏は新たなデータを発表しました。新たな成果としてまず発表されたのは、2024年11月にリリースされたAmazonのNova。3モデルあり、このうちNova-microはウィリソン氏が追跡しているモデルの中で最も安価なモデルだとのこと。残念ながら、ペリカンを描くのは得意ではないようです。

「Llama 3.3 70B」は2024年12月にリリースされた、MetaのLlama 3シリーズ最終モデル。Metaは自社の最大モデルである「Llama 3.1 405B」と同等の性能だと主張していますが、Llama 3.1 405Bが自転車っぽいものを描けたのに対して、Llama 3.3 70Bは自転車でもペリカンでもないなにかを描くにとどまり、かなりの差があることを示す結果となりました。

DeepSeekはクリスマスに新モデルをリリース。トレーニングコストに550万ドル(約8億円)かけているおかげなのか、ペリカンとはいえないまでも鳥と自転車が描写されました。

2025年の年明けに登場したDeepSeek-R1はさらにペリカンの描写力が向上。自転車もぱっと見て「これは自転車」とわかるようなものを出力しました。

2025年2月、Anthropicが「Claude 3.7 Sonnet」をリリース。これは「見事」としか言いようがない「自転車に乗ったペリカン」です。

OpenAIのGPT 4.1の各モデルはこんな感じ。nanoとminiはちょっと自転車の造形に不安なところがあります。

そして直近、2025年5月だとこんな感じ。「Claude Sonnet 4」はペリカンというかアヒルみたいな感じながら自転車に乗れています。そして、「gemini-2.5-pro-preview-05-06」は文句なしのペリカンを出力することに成功。

ウィリソン氏は自分のベンチマークを「冗談で始めましたが、実際にはちょっと有用性が出てきています」と述べた上で、「大手のAIラボが追いついてこない限り、ペリカンベンチマークはしばらく有用であり続けると思います」と語りました。

・関連記事 AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明 - GIGAZINE

ChatGPTとGeminiとDeepSeekとClaudeで5つのテストをして最も優秀だったのはどのモデルなのか? - GIGAZINE

AnthropicがAIモデルの思考内容を可視化できるオープンソースツール「circuit-tracer」を公開 - GIGAZINE

関連記事: