「Fable 5を全タスクに使う必要はない」 Anthropic開発者直伝のトークンコスト節約術
AIの普及によって企業が負担する利用コストが膨らんでいる。米Gartnerは、AIインフラの効率向上などによってAIモデルの利用コストが下がる一方で、チャット型AIの5〜30倍のトークンを消費するAIエージェントの普及によって、企業が支払うAI推論の総コストが増加すると予想する。日本でも、帝国データバンクが2026年3月に約1万社を対象に実施した調査で、小規模企業を中心にコスト面の負担が課題として挙がるなど、この管理が経営課題として認識され始めている。
ユーザーが抱えるこの課題に対して「Claude」を提供する米Anthropicはどう対処するのか。「Claude Platform」担当開発責任者のアンジェラ・ジャン氏とケイトリン・レス氏は、AI利用コストの削減手法として2つの手法を勧めた。
レス氏がまず挙げた手法が「アドバイザー戦略」だ。これはClaudeのAPIに組み込まれた機能で、高性能なモデルを「アドバイザー」(先生)、安価なモデルを「エグゼキューター」(生徒)として組み合わせる手法を指す。エグゼキューターが作業を実行し、判断に迷った際にアドバイザーに助言を求めることで、安価なモデル単体よりも高い精度を実現する仕組みだ。
レス氏は「アドバイザー戦略を使えば、最先端モデル相当の性能をはるかに安く実現できる」と話す。例えば、6月10日に一般提供が始まった最上位モデル「Claude Fable 5」(以下、Fable 5)をアドバイザーにし、「Claude Opus 4.8」(以下、Opus 4.8)や「Claude Sonnet 4.6」(以下、Sonnet 4.6)をエグゼキューターにすることで、Fable 5の性能をより低コストで実感できるという。本稿執筆時点ではFable 5の提供が停止されているため、Opus 4.8をアドバイザー、Sonnet 4.6をエグゼキューターにする構成が考えられる。
ジャン氏は「(Fable 5のような)最も賢いモデルを全てのタスクに使う必要はない」とし、タスクの難易度に応じた段階的な使い方も提案した。最も難しい問題にはFable 5をアドバイザー、Opusをエグゼキューターに。次に難しい課題ではOpusをアドバイザー、Sonnetをエグゼキューターにする。さらに軽い処理であればSonnetと「Claude Haiku 4.5」の組み合わせも選択肢に入るという。
ジャン氏は「難しい問題」の例として、大規模なレガシーシステムの移行や、膨大なデータの処理、影響範囲の広い脆弱性の調査、ゲーム開発のような工程の多い開発などを挙げた。
なお、Fable 5をアドバイザーにすれば、エグゼキューターが下位モデルでも、Fable 5の特徴である長時間タスクの処理能力は維持されると両氏は説明した。
ユースケースによっては「プロンプトキャッシング」を活用することでさらにトークンコストを圧縮できるかもしれないとレス氏は指摘する。これは、Claude APIのリクエストの冒頭部分、例えばClaudeの役割や目標を指定するシステムプロンプト、使用するツールの指定、メッセージ履歴などをキャッシュし、再処理コストを省く仕組みだ。
APIリクエストのコードにおいてキャッシュを利用するよう指定することで有効になる。デフォルトでは5分間キャッシュが保持されるが、追加料金を払うことで1時間保持させることも可能。
例えば、Opus 4.8の通常入力時の料金は100万トークン当たり10ドルだが、5分間保持されるキャッシュの書き込みには6.25ドルかかる。その代わり、次回以降の入力時にキャッシュを利用した場合(「キャッシュヒット」時)の料金は0.5ドルで済む。
初回のキャッシュ書き込み時に追加料金がかかるものの、社内規定の検索など特定の役割を持ち、特定の資料を毎回参照するチャットbotや、長文ドキュメントを扱うAIシステムなどで有効にすることで、大幅なコスト削減を期待できる。
企業におけるAIの利用が進むことで、トークンコストの増大に直面する企業も増えると予想される。そういった企業にとって、今回両氏が紹介した手法は実践的な指針となりそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.