OpenAIが発表した新モデル「GPT-4.1」を試すも、“Gの影”がチラついてしまった

Image: OpenAI

2025年4月15日、OpenAIが3つの新AIモデル「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」を発表しました。

・いずれのモデルもこれまでの同系統モデルよりも性能向上。特にコーディングの能力とユーザーの指示に従う能力が伸びた

・コンテキストウィンドウが大幅に増加、最大100万トークンに。格段に長いコンテキスト(文脈)を理解できるように

・どのモデルも費用対効果の高さを意識。賢さはアップしつつ、価格感が調整された

いずれのモデルもAPIのみで利用可(ChatGPT上で使えるわけではない)ですが、昨今、非エンジニアでもAPIを利用する方が増えてるような印象があります。自分もそうなっていて、今後OpenAI APIはどのモデルで叩けばいいの?と気になりました。

そこで個人でも利用しやすそうなGPT-4.1GPT-4.1 miniをいろいろと試してみました。プロンプトを載せ出すと膨大になってしまうので、感じたことを軸にまとめています。

GPT-4.1:「この賢さで安くなった」はオイシイ

Image: OpenAI

GPT-4.1は高性能と価格の両立を狙ったモデルです。テキストと画像の入力にも対応、立ち位置としてはGPT-4oの後継、つまりは主力です。

触ってみて思ったのはとにかく「日本語の文章書くのうめぇ」。以下のように翻訳をやらせてみたのですが、4oからの進化はとてもはっきり感じられました(原文はこちら)。

GPT-4.1訳

指示遂行の信頼性や長文理解の改善によって、GPT-4.1モデルはエージェント、すなわちユーザーの代わりに独立してタスクを実行できるシステムの動力として、はるかに効果的になりました。Responses APIのようなプリミティブと組み合わせることで、ソフトウェアエンジニアリング、巨大文書からの知見抽出、最小限の手間で顧客リクエストへ対応するなどの、より実用的で信頼できるエージェント開発が可能です。

GPT-4o訳

指示の信頼性向上と長いコンテキストの理解能力の改善により、GPT‑4.1モデルはユーザーに代わり自立してタスクを達成するエージェントを動かすことにおいてより効果的です。Responses APIのようなプリミティブと組み合わせることにより、開発者はリアルタイムのソフトウェアエンジニアリング、大規模ドキュメントからの洞察抽出、最小限のサポートでの顧客対応などにおいて、より有用で信頼できるエージェントを構築できるようになります。

原文

These improvements in instruction following reliability and long context comprehension also make the GPT‑4.1 models considerably more effective at powering agents, or systems that can independently accomplish tasks on behalf of users. When combined with primitives like the Responses API⁠ , developers can now build agents that are more useful and reliable at real-world software engineering, extracting insights from large documents, resolving customer requests with minimal hand-holding, and other complex tasks.

太字にしてあるのが大きな差を感じた部分です。細かいところでテクいうえに、ミスらしいミスがない。純粋に上手です。

4oは冒頭のThese improvements〜の部分を変にこねくり回して訳した結果、「向上」「改善」と似た意味の語が続いてむしろ直訳調になってしまっています。

4.1の上手さが光るのは、「GPT-4.1モデルはエージェント、すなわちユーザーの代わりに独立してタスクを実行できるシステムの動力として」の部分。原文だとThat節でsystemsにかかっていますが、それを「すなわち」という強調するような表現を採用することですっきりさと理解しやすさを両立した訳文にしています。

「エージェント」ってキーワードを際立たせるような訳し方をしてるの、技ありなんだよなぁ。

「日本語の表現力」を求めるならかなりいい

「賢さぶちあがった!」って感じではありませんが、回答を見ていると着実な進化を感じます。体感10-20%くらい賢くなってる印象ですね。「日本語の文章」を書かせたり編集・翻訳させる人だと相当使えると思います。

GPT-4.1のいいところは、しっかり性能アップしつつもGPT-4oより2割安くなってるところ。GPT-4.1の利用料金は、Input 2ドル/1Mトークン・Output 8ドル/1Mトークン。GPT-4oはInput 2.5ドル/1Mトークン・Output 10ドル/1Mトークンだったので、本当に20%オフ

他に大きなところでは、入力できるコンテキストが100万(約9倍)・出力できる量が3万2000(2倍)になっているのが挙げられます。長文処理時に、そこまで細切れにしなくてもよくなったのは、だいぶ使い勝手に影響するなと思いました。

性能的にも価格的にも、本当に「GPT-4oの後釜」を任せられる感じです。

GPT-4.1 mini:「ほぼ4o」な性能、コストは1/6

GPT-4.1 miniもかなり使えそうな印象です。GPT-4.1 miniは、テキストと画像の入力に対応したマルチモーダルモデルで、立ち位置としては「GPT-4.1の廉価版」です。賢さ的には若干4oが勝るくらいだそうです。

ポイントは利用料金、Input 0.4ドル/1Mトークン・Output 1.6ドル/1Mトークン。GPT-4oのざっと1/6

実際どうなのか? また翻訳になっちゃうのですが、GPT-4.1・GPT-4.1 mini・GPT-4oの訳をそれぞれ並べてみると、確かにGPT-4.1 mini・4oはどっこい感がありました(GPT-4.1はちょっと抜けてる)。

※以下、太字は筆者によるものです。

プロンプト

日本語に翻訳してください:

1. The Imitation Game

I propose to consider the question, "Can machines think?" This should begin with definitions of the meaning of the terms "machine" and "think."(以下略、原文

GPT-4.1

もちろん、以下が日本語訳です。

イミテーション・ゲーム

私は「機械は思考できるか?」という問いについて考察することを提案する。この議論はまず、「機械」と「思考」という用語の意味の定義から始めるべきである。

GPT-4.1 mini

1. イミテーションゲーム

「機械は考えることができるか?」という問いを考察してみたいと思います。まずは「機械」と「考える」という言葉の意味を定義することから始めるべきでしょう。

GPT-4o

以下は「The Imitation Game」の該当部分の日本語訳です:

私は「機械は考えることができるか?」という問いを考察することを提案します。これはまず、「機械」と「考える」という言葉の意味を定義することから始めるべきです。

大枠はだいたいどれも同じで、訳そのものもどれもアリな感じですが、差が見てとれる部分が2カ所あります。

1つめは「The Imitation Game」をどう訳すか。正確にいくのであれば「模倣ゲーム」、通りのよさを考えると「イミテーションゲーム」です(著者を主人公にした映画のタイトルにもなっています)。今回に関しては学術的な文脈でもないので、逃げずにどちらかをとっていればOKですが…GPT-4oは逃げたね?

もう1つポイントになるのが、抽象的な話題をどうわかりやすく訳すか、という視点です。これについては、原文はThisなところを、文意を踏まえて「この議論」と訳しているGPT-4.1がかなりエラい。GPT-4.1 miniは訳出しない選択をしていますが、翻訳では可能な限り訳出したいところです。GPT-4oは訳出してるのはいいんですが、「これ」と直訳。

コスパを活かせるか。腕の見せどころなモデル

どれもまちがいではありませんが、GPT-4.1 mini・4oは「もう一声」ってところがある感じですね。そういうのを使いどころを限定したり、プロンプトエンジニアリングをがんばったりでなんとかできるかがGPT-4.1 miniの焦点になるでしょう。

GPT-4oって今たぶんいちばん使われているモデルです。だいたいのタスクはこれで十分と紹介されていて、実際そうだと思います。つまり、今4oでやれていることを1/6の費用でやれる可能性を秘めている。

だいぶアツいモデルじゃないでしょうか。

「日本語がうまい」で選ぶ感じだと思う。ほかはGeminiが強すぎて…

GPT-4.1で顕著でしたが、全体として「こなれた日本語を書いてくるなぁ」と関心させられました。人間でもけっこう訓練しないと書けないくらい、読みやすく頭に入ってきやすい文章で回答してくるのがすごくいいです。

自分は主に文章の編集や資料の整理に使っているのですが、表現力の高さは文章量が増えれば増えるほど効く印象です。読みにくいものがたくさんあったら萎えますけど、とっつきやすい表現が徹底されているならどんどん読んでいけるからです。

その一方で、コスト感や長文対応力そのものについてはまだまだ進化を期待したい感じです。というのも、今はGoogleのGemini 2.5 Proがベンチマークがトップクラスで、長文にも強く、コスパもいい(Input 1.25ドル/1Mトークン・Output 10ドル/1Mトークン)からです。

AIの性能評価を行なっているサイト Artificial Analysisによる各モデルの「賢さ」評価。Gemini 2.5 Proは賢さだけでなく、処理速度・コスパ、いずれもトップクラスImage: Artificial Analysis

日本語の文章力の評価が主になったのもGeminiのせいです。コードへの対応力はGemini系、文章力はGPT系という印象になってるところがあって。この性能・価格設定でも「GeminiよりGPT」とならない方もぜんぜんいらっしゃるはず。

とりあえず、絶対にGeminiと比べてみたほうがいいです。

先行して超性能を達成したり、ChatGPTでジブリ絵が作れるとかで話題をかっさらってきたOpenAI、今後もAI業界のリーダーの座をキープできるのでしょうか。

Source: OpenAI (1, 2, 3), Google AI, UMBC, Artificial Analysis

関連記事: