Apple Siliconはなぜ「オンデバイスAI」に強いのか? NVIDIA「RTX Spark」との比較で読み解くシリコン設計の哲学:本田雅一のクロスオーバーデジタル(1/5 ページ)
WWDC(World Wide Developers Conference) 2026の開催を前に、AppleでApple Silicon(自社設計半導体)担当のシニアプロダクトマネージャーを務めるダグ・ブルックス氏に話を聞く機会を得た。テーマは「オンデバイスAIを支えるシリコン設計の考え方」だ。
今、半導体業界ではAI(人工知能)に最適化したシリコン設計をめぐる競争が激しさを増している。CPUとGPUが同じメモリ領域を共有する「ユニファイド(共有)メモリ」のアーキテクチャを採用する動きが各社に広がり、その流れはより鮮明になってきた。先日NVIDIAが発表したWindows PC向けSoC「RTX Spark」は、その何よりの“証拠”といえる。
2020年のMacにおけるApple Siliconへの移行以来、Appleが築いてきた共有メモリの優位は、オンデバイスAIの時代において多くの「フォロワー」を生み出している。
今回話を聞いたブルックス氏は、システムエンジニアとして1994年にAppleに入社し、長らくMacのハードウェアに携わってきた。M5チップファミリーにおいても、アーキテクチャの“意図”を語る役割を担っている。半導体自体の設計者ではないが、半導体の価値をいかに製品価値に反映しようとしているのかを語れる人物である。
インタビューの内容に触れる前に、Apple SiliconがオンデバイスAIに最適化されてきた歴史を簡単に振り返っておきたい。
Mac向けの初代Apple Siliconである「M1チップ」の登場時はまだ、推論処理は今日のような「生成AI」の文脈では語られていなかった。しかし、Apple Siliconにおける推論処理の最適化は10年近い歴史の“厚み”がある。
その源流は、2017年の「iPhone X」に初めて搭載された顔認証システム「Face ID」のための処理モジュールにある。同機種のSoC「A11 Bionicチップ」に初めて載った「Neural Engine」(NPU)は当初、Face IDや「Animoji」の処理など、ごく限られた用途にのみ使われていた。
それはやがて、iPhoneの新機能を実現する“独立した”プロセッサモジュールとしてブランド化され、カメラ画質の向上を支え、専用API「Core ML」を通して機械学習の応用全般へと裾野を広げた。ユーザーインタフェースや機能を磨き上げながら、今日のオンデバイスAIへと連なっている。
つまりApple SiliconのAI機能、すなわち推論能力は世代ごとに求められる機能への最適化の積み重ねであり、その時々のバランスに合わせて実装形態を変えてきた。昨今では、その能力は「CPU」と「GPU」、そして「Neural Engine」へと分散され、これらを共有メモリによって結合している。
そして直近では、オンデバイスでの「生成AI」、さらには「エージェンティックAI(エージェントAI)」への最適化に歩みを進めつつある――これは筆者自身の見立てだが、まずこの見方を示した上で、ブルックス氏に話を聞いた。
するとブルックス氏は「その多くは初期の時代に始まった」と振り返った。
Neural Engineは、当時の製品開発で必要とされた「非常に限られた領域の機械学習タスクを解決するため専用アクセラレーター」として導入された。その後、これを「Core ML」という形で(機能を)公開し、開発者がNeural Engineに手を伸ばせるようになると、応用は一気に広がった。 世代を重ねるごとに推論能力は向上し、電力効率も改善し続けている。とりわけAIの領域は“演算”への需要が尽きることがない状況にある。
世代ごとに求められる機能へ焦点を絞って最適化する傾向にあるApple Siliconだが、必ずしも「現在の形」を目指し、一貫して開発されてきたものではない。
しかし、半導体業界の技術トレンドと製品開発における目標を両にらみしつつ、Neural Engineだけでなく、CPUコアやGPUコア、さらには各種アクセラレーターを組み合わせることで、ワークロードごとの最適化と分散を進めてきた。電力効率を保ったまま、現在はオンデバイスAIに焦点を当てた構成へと進化している。
- NVIDIAが新型プロセッサ「RTX Spark」でWindows PCに“再挑戦” 搭載PCは2026年秋に登場 NVIDIAがWindows PCへの搭載を想定したプロセッサ(SoC)を、約13年ぶりにリリースする。AI全盛の時代において、AIを含むあらゆる処理が高速に行えることを前提にした設計としたことが特徴だ。
- なぜAppleは「半導体」と「製品」のトップを統合したのか クック退任より重要な「CHO新設」と究極の垂直統合 Appleが15年ぶりにCEOを交代する――このニュースは新旧CEOにばかり目が行ってしまいがちだが、新体制で新設される「CHO(最高ハードウェア責任者)」という役職にも注目すべきだ。
- 突然の「スーパーコア」誕生と消えたEコア――Apple M5 Pro/Maxが断行した「CPU大再編」を読み解く Appleが「M5 Proチップ」「M5 Maxチップ」を発表した。初めてM5チップのバリエーションモデルが出てきた格好だが、実はCPUコアの呼称が遡及的に変わっている。その背景を解説する。
- M5 Max搭載「14インチMacBook Pro」がワークステーションを過去にする 80万円超の“最強”モバイル AI PCを試す AppleがM5 Pro/Maxチップ搭載の「MacBook Pro」をリリースした。今回は、SSDの容量以外は最上位構成の「14インチMacBook Pro」で、LLMをゴリゴリ動かしてみた。
- コンパクトボディーにスパコン並みのAI性能! 「NVIDIA RTX Spark」搭載ミニデスクトップPCを見てきた NVIDIAがWindows PC向けのSoC「RTX Spark」を発表したのだが、注目を集めるのはノートPC製品ばかり。そこでこの記事では、あえてデスクトップPCに注目してみたい。
Copyright © ITmedia, Inc. All Rights Reserved.
Page 2
ここからが、今回取材で最も掘り下げたかったポイントだ。
AI処理の視点で意外と重要なのが「メモリ」だ。メモリについて考えるとき、評価軸として「容量」と「帯域」という2つがある。「容量」はデバイス上で動かせるAIモデルの大きさを決める。より多くのメモリを搭載できれば、より大きなモデルをローカルで動かせるという、シンプルな事実を示す指標となる。
そして「帯域」はAIモデルの実行パフォーマンス、すなわち処理性能を左右する重要なポイントとなる。LLMがトークンを逐次生成する「デコード(Decode)」と呼ばれる処理は、メモリの帯域が広ければ広いほど高速に進む。ブルックス氏も「これ(帯域)はとりわけ、オンデバイスのAI処理にとって重要だ」と話す。
筆者は以前、NVIDIAのコンパクトスーパーコンピュータ「DGX Spark」を評価したが、「Qwen2.5」でプログラムコードの生成を行った際のスループットは毎秒14トークン程度だった。M4 Maxチップ搭載のMacで同じものを同じ条件で実行すると、約2.4倍の毎秒34トークンとなる。これはDGX Sparkが搭載しているSoC「NVIDIA GB10」のメモリ帯域幅が毎秒273GBなのに対して、M4 Maxチップのメモリ帯域幅は毎秒573GBと、ちょうど2倍あることに起因する差と思われる。
このことに踏み込むと、ブルックス氏は次のように話した。
競合のシステムは非常に強力な演算性能を持っているが、処理全体を見渡すとメモリの帯域が不足していることが多い。 処理全体のバランスを考えて、Apple Siliconではメモリ帯域が不足しないよう慎重に設計を行っている。
この考え方は、最新のM5チップファミリーにも反映されている。GPUコアを最大10基搭載する「M5チップ」から、最大20基搭載の「M5 Proチップ」、そして40基搭載の「M5 Maxチップ」とGPUコアの数が多くなるほど、メモリ帯域幅もそれに合わせて広げられている。
AIは「繰り返し処理」が多く、何らかの要素が律速する(全体の処理速度を決める)傾向が強い。トークン生成、とりわけデコードではメモリ帯域が大きな律速要素となりうる。デコード処理では、メモリ帯域幅の広いApple Siliconの上位モデルが有利なのだ。
ただ、従来のApple Siliconには相対的に苦手としてきた処理もある。デコードと対をなす「プリフィル(Prefill)」処理だ。
プリフィルは、ユーザーが入力した指示文や文脈をまとめて処理し、最初の応答を始めるための準備を行う段階だ。M5チップファミリーと、基本アーキテクチャが共通する「A19 Proチップ」では、プリフィル処理の高速化を行うための“工夫”を、ブルックス氏は紹介した。
A19 ProチップおよびM5チップファミリーでは、GPUコア内に「Neural Accelerators」という、行列演算を高速化する機能を追加した。これにより、プリフィル処理が1コアあたり最大4倍に高速化した。オンデバイスでの言語モデルの実行速度をバランスさせている。
要するに、プリフィル処理を担うGPUコアに追加の演算器を投入したということだ。処理性能はGPUコア数が多いほど高速になるので、上位のチップほど改善効果は大きくなる。
筆者が過去にテストした結果では、「M4 Maxチップ」のプリフィル処理性能はDGX Spark(NVIDIA GB10)の4分の1以下だったのに対し、「M5 Maxチップ」ではDGX Sparkとおおむね同等か、上回る性能になった。
現代的なAI機能の基礎となる言語処理において、メモリ帯域の最大化によってデコードを、Neural Acceleratorsの搭載によってプリフィルを高速化し、AI時代に求められる性能へと最適化している。
- NVIDIAが新型プロセッサ「RTX Spark」でWindows PCに“再挑戦” 搭載PCは2026年秋に登場 NVIDIAがWindows PCへの搭載を想定したプロセッサ(SoC)を、約13年ぶりにリリースする。AI全盛の時代において、AIを含むあらゆる処理が高速に行えることを前提にした設計としたことが特徴だ。
- なぜAppleは「半導体」と「製品」のトップを統合したのか クック退任より重要な「CHO新設」と究極の垂直統合 Appleが15年ぶりにCEOを交代する――このニュースは新旧CEOにばかり目が行ってしまいがちだが、新体制で新設される「CHO(最高ハードウェア責任者)」という役職にも注目すべきだ。
- 突然の「スーパーコア」誕生と消えたEコア――Apple M5 Pro/Maxが断行した「CPU大再編」を読み解く Appleが「M5 Proチップ」「M5 Maxチップ」を発表した。初めてM5チップのバリエーションモデルが出てきた格好だが、実はCPUコアの呼称が遡及的に変わっている。その背景を解説する。
- M5 Max搭載「14インチMacBook Pro」がワークステーションを過去にする 80万円超の“最強”モバイル AI PCを試す AppleがM5 Pro/Maxチップ搭載の「MacBook Pro」をリリースした。今回は、SSDの容量以外は最上位構成の「14インチMacBook Pro」で、LLMをゴリゴリ動かしてみた。
- コンパクトボディーにスパコン並みのAI性能! 「NVIDIA RTX Spark」搭載ミニデスクトップPCを見てきた NVIDIAがWindows PC向けのSoC「RTX Spark」を発表したのだが、注目を集めるのはノートPC製品ばかり。そこでこの記事では、あえてデスクトップPCに注目してみたい。
Copyright © ITmedia, Inc. All Rights Reserved.