GPT-5に惑わされてる場合じゃない。OpenAIの戦略転換、gpt-ossはなぜ「事件」なのか(BUSINESS INSIDER JAPAN)

「実業界に激震を走らせるのはgpt-oss」だと筆者が感じる理由は次のようなものだ。 LLMの世界では、「ベンチマークは嘘をつく」という格言がある。 そもそも言語能力を正しく測るというのは、相手が人間であっても難しい。「ベンチマークテスト」は、知的能力、言語能力のごく一部を計測するだけに過ぎない。 新しいLLMがどんな美辞麗句で飾られていたとしても、実物はまるで使えないポンコツ、ということは繰り返されてきた。 その意味で、筆者は本稿を書き上げるために、まずgpt-ossの評価に丸一日を費やした。 これが本当にOpenAIが公表した額面通りに「o3-mini」や「o4-mini」に匹敵するものなのか、確かめなくてはならないからだ。筆者は手元にMacBookPro(M4 Max)の128GBモデルがあるので、フルスペックのgpt-oss-120Bを動かすことができた。 日頃、新しいオープンなLLMが登場するたびにやっているテストを何度も試し、試行錯誤した結果は、「o4-miniと完全には同じではないが、ローカルLLMで必要とされる機能としては充分な性能を持っている」という評価になった。 筆者がよく行うテストは、「Pythonで四次元マンデルブロ集合の三次元断面を書け」というプロンプトだ。プログラマーとしては「想像はできるが面倒すぎて書きたくない」というハードルを超えるものだという理由で、テストに使っている。 このプロンプトをMacBookPro M4/128GBを用いて、中国アリババのLLM「Qwen3-32B」で実行すると、2Dマンデルブロ集合で誤魔化された。「考えようによっては2Dマンデルブロ集合も4次元マンデルブロ集合の断面ですよ」という言い訳までついてる。メタの「Llama4-Scout-17B-14E-MLX-Text」(下記画像)では、一応それっぽいプログラムを書いてくれはした。 このプロンプトに対応できたのは、これまで「Claude Opus4」や「GPT-4o」といった“クラウドの向こう側”にあるプロプライエタリなLLMだけだった。 ところがgpt-oss-120BをMacBook Proで動かすと、最初から完璧なコードが出てくる。 これはもう、クラウドLLMに頼る時代は終わりなのではないだろうか。ちなみに(一般的にはgpt-ossより賢いと思われている)GPT-5に同じプロンプトを渡すと、まったく的はずれなコードが返ってくる。 別のちょっとしたテストもしてみる。 例えば、いきなり「樋口真嗣って誰?」(編注:日本の特技監督・映画監督)のような質問をすると、デタラメ交じりの答えが返ってくる。 しかし、Wikipediaの該当ページを貼り付けた上で、「この人物の来歴を要約せよ」と命じると完璧な答えが得られる。これは、120Bはもちろん、軽量版の20Bでもほぼ同等の性能だった。gpt-ossでは新書1冊分に相当する最大12万トークン(約12万字)を処理できるため、Wikipediaの要約や、非構造化文章から構造化されたデータ(JSONなど)の抽出には強力な能力を発揮する。 つまり、必要なデータをプロンプトに内包して問い合わせる、いわゆる文脈内学習(ICL=In-Context-Learning)を前提とすれば、十分実用的に使うことができる。プログラム作成能力も同様で、内部的に検索機能などと組み合わせることで実用的なコーディング能力を獲得できるだろう。 逆に言えば、gpt-oss-20Bをそのまま使うだけではo3-mini並のコーディング能力があるとは言い難い。 それでも、補助的なシステム ── 例えば過去に書かれたコードを任意に参照できるようなデータベースや検索エンジンなど ── を組み合わせれば、オンラインのLLMとして評判の高い「Claude Code」ほどではないにせよ、かなり強力な自動コーディングエージェントが作れそうな可能性は確かに感じる。 本稿が掲載される頃には、既に誰かが作っているか、公開されているかもしれない。

清水亮 / Ryo Shimizu[経営者、研究者、プログラマー]

BUSINESS INSIDER JAPAN
*******
****************************************************************************
*******
****************************************************************************

関連記事: