NVIDIAは、Rubin GPUをgroq lpuと組み合わせてレイテンシーを削減し、推論を35倍に向上させます。

13 4月 2026

NVIDIAのGroq LPUに対する200億ドルの動きは、GPUアーキテクチャの選択からVera Rubinがリアルタイムのワークロードを大規模に処理する方法まで、AI推論のロードマップを再構築しました。

Summary

NVIDIAのGroqに対する200億ドルの賭けの内幕

2025年のクリスマスの日、NVIDIAによるGroqの買収は、まだ電話と握手だけの段階でした。LPUとGoogleのオリジナルTPUの両方を作成した創設者Jonathan Rossは、話し合いが始まったとき自宅にいました。しかし、3週間後には200億ドルが動き、RossはNVIDIAのチーフソフトウェアアーキテクトになっていました。

プロセスは、GroqのCOOであるSunny Madraが、NVIDIAがNVLinkをエコシステムパートナーに開放した後、Groqがそれに接続できるかどうかを尋ねてJensen Huangに連絡したときに始まりました。Jensenは「もちろん、なぜダメなの？」と答えました。彼らはEthernetを介したGPU–LPUのワークロード分割をテストしました—まだNVLinkはなく、単なる概念実証でした。それは十分に信頼性があり、デモから数日以内に正式な買収交渉が始まりました。

この取引のスピードは、緊急の戦略的問題を反映していました。NVIDIAは、すべてのGPUデータセンターがLLM推論で直面するデコードボトルネックに対するターゲットを絞った解決策を購入しました。さらに、それはNVIDIAのH100からBlackwell B200、そしてVera Rubinプラットフォームへの広範なGPUアーキテクチャの進化と一致していました。

なぜGPUはLLMトークン生成に苦労するのか

すべてのLLM推論リクエストには、2つの異なるフェーズがあります。プリフィルは、モデルが完全な入力—プロンプト、コンテキスト、またはドキュメント—を並行して取り込み、処理するフェーズです。数千のトークンが、一度にすべてのアテンションヘッドを発火させます。GPUはこの高度に並列化されたワークロードで優れています。

しかし、デコードは根本的に異なります。モデルは、1トークンずつ順次出力を生成します。各新しいトークンはすべての前のトークンに依存しているため、プロセスはシーケンス全体で並列化できません。つまり、この順次性は、GPUとトークンごとの生成の間のアーキテクチャの不一致を露呈します。

各デコードステップ中に、GPUはHBMメモリから全体の重み行列を引き出し、比較的小さな行列乗算を実行し、単一のトークンを出力します。ステップ間で重みは変わらないため、同じデータが繰り返しロードされます。Vera Rubin GPUでの22 TB/sのHBM4帯域幅でも、ステップごとの計算が非常に軽いため、メモリ移動がボトルネックになります。

GPUは大規模な並列処理に最適化されており、細かい順次実行には最適化されていません。その結果、各トークン生成ステップでは、GPUの計算能力の大部分が未使用のままになります。これはまさに、Groq 3 LPUが解決するために設計された問題であり、メモリアクセスとレイテンシに制約される推論の部分を引き継ぐことで、純粋なFLOPSではありません。

Groq 3 LP30の設計とSRAM優先アーキテクチャ

Groq 3の中心にあるLP30チップは、GPUとはアーキテクチャ的に非常に異なります。ダイの横に高帯域幅のHBMを配置する代わりに、500 MBのオンダイSRAMを統合し、150 TB/sの帯域幅を提供します。対照的に、Vera Rubin GPUは288 GBのHBM4を22 TB/sで提供します。LPUは容量がはるかに少ないですが、そのメモリアクセスはほぼ7倍速いです。

この設計は意図的です。キャッシュ階層も、動的ハードウェアスケジューリングも、投機的実行もありません。代わりに、LP30は物理的なバンクアドレッシングを持つフラットなSRAMを公開します。さらに、GPUのランタイム駆動の実行モデルを、コンパイラ駆動の静的命令スケジューリングに置き換え、各命令のタイミングがコンパイル時に固定されます。

この決定論的アプローチは、トークン配信のタイミングのばらつきを排除し、リアルタイムの音声エージェントやレイテンシに敏感なアプリケーションにとって重要です。GPUがトークンを順次生成する際には、メモリ圧力やスケジューラの状態によって、トークン間に予測不可能なマイクロ秒レベルの遅延が発生します。LPUはこれらのジッターを完全に構造的に回避します。

LP30には、4つの異なる実行ユニットタイプが含まれています：Matrix (MXM)は密なFFN行列乗算用、Vector (VXM)はポイントワイズ操作と活性化用、Switch (SXM)はデータの置換と転置用、Memory (MEM)はコンパイラ制御下での直接SRAMアドレッシング用です。この組み合わせは、トランスフォーマーFFNの実行に最適化されています。

各LP30チップは1.2 PFLOPSのFP8計算を提供します。それは、96のチップ間リンクを介して隣接するチップに接続し、各リンクは112 Gbpsで、チップあたり合計2.5 TB/sのC2C帯域幅を提供します。SamsungのLP4Xプロセスで構築されており、Groqの第一世代チップの230 MBと比較してSRAM容量を倍増させています。

重要なのは、LPUはGPUを置き換えることを意図していないことです。それは、Vera Rubin GPUsと並んで、分割実行モデルで動作するように設計されており、各プロセッサタイプがそのアーキテクチャに一致するワークロードの部分を処理します。しかし、その分割を効率的にするためには、新しいシステム設計が必要でした。

Attention-FFNの分離とシステムレベルの分割

NVIDIAはこのアーキテクチャをAttention-FFN Disaggregation (AFD)と呼んでいます。コアの洞察は、トランスフォーマーのデコーダーレイヤーが2つの非常に異なるタイプの作業を含んでおり、異なるハードウェアがそれぞれで勝利するということです：アテンション対フィードフォワードネットワーク。

アテンションはコンテキスト依存です。それは、シーケンス長に比例して成長する中間アテンション計算を格納するバッファであるKVキャッシュを読み取り、すべての以前のトークンに対するアテンションスコアを計算し、中間活性化を生成します。計算はコンテキスト長に比例してスケールするため、KVキャッシュを保持するために大容量のHBMを持つハードウェアが必要です。その役割はRubin GPUにあります。

対照的に、FFNパスはコンテキストに依存しません。特定のプロンプトに関係なく、同じ重み行列が使用されます。トークンごとに異なるのは、入力される活性化だけです。現代のMoEモデルはFFNパラメータによって支配されています：DeepSeek R1は6850億の総パラメータのうち6690億のFFNパラメータを持ち、97.7%です。Kimi K2は98.9%に達します。これらの重みはラックスケールでSRAMに収まり、150 TB/sでロードすることはHBM4の22 TB/sよりもはるかに速いです。

実際には、分割は次のように機能します：Vera Rubin NVL72コンプレックスがプリフィル、KVキャッシュの構築、およびデコードアテンションを処理します。Groq 3 LPXシステムはデコードFFNとMoEルーティングを担当します。40のデコーダーレイヤーを持つモデルの場合、それはトークンごとに40回の往復を意味し、活性化がGPUからLPUに流れ、各トークン生成のために戻ります。

これらすべては、NVIDIA Dynamoによって調整されます。これは、受信リクエストを分類し、プリフィルをGPUワーカーにルーティングし、トークンごとのAFDループを管理し、新しいトークンがすでに関連するキャッシュを保持しているワーカーに着地するようにKV対応のスケジューリングを実行します。さらに、ネットワーキングを調整してラック間のトラフィックを最小限に抑えます。

Jonathan Rossは、GTC 2026セッションで次のように説明しました。「すべてをLPUで実行すると、アテンションでの利用が不十分になります。すべてをGPUで実行すると、FFNレイヤーでの利用が不十分になります。それらを組み合わせることで、両方の利用率が向上します。」このコメントは、nvidia groq acquisitionの背後にある論理を簡潔に要約しています。

要するに、Rubin GPUは大容量のHBMを必要とするもの—長いコンテキストに対するアテンションとKVキャッシュのストレージ—を処理します。GroqのLPUは、極端なメモリ帯域幅と決定論的なタイミングを必要とするもの—各トークンに対して150 TB/sで提供されるFFNの重み—を処理します。

Groq 3 LPXラックの設計とパフォーマンスの範囲

AFDモデルは、Groq 3 LPXがFFNワークロードをカバーするのに十分なスケールに達する場合にのみ機能します。256 LP30チップで、そのスケールに達します。LPXラックは、32の液冷コンピュートトレイにわたって256チップを統合し、各トレイに8チップを配置し、オールトゥオールトポロジーでラック内のレイテンシを低く保ちます。

ラックレベルの仕様はかなりのものです。256チップ全体でのSRAMは128 GBです。ラックスケールの総帯域幅は640 TB/sに達します。FP8計算は315 PFLOPSでピークに達します。ラック間の接続性は、各トレイあたり約448 GB/sを提供し、Dragonflyトポロジーを使用して最大3ホップの直径を持ちます。

Vera Rubin NVL72と組み合わせると、このプラットフォームは劇的な効率向上をもたらします。NVIDIAによれば、Vera Rubin NVL72 + LPXシステムの組み合わせは、Grace Blackwell NVL72システム単独と比較して、メガワットあたりの推論スループットが35倍高くなります。重要なのは、比較はBlackwell NVL72に対して行われており、古いH100構成ではありません。

GTCの基調講演中に、Jensen Huangは、この組み合わせたシステムでのリアルタイムワークロードに対して800〜1,000トークン/秒のインタラクティブターゲットを示しました。しかし、同じイベントからの重要な明確化は、LPXラックがNVL72の安価な代替品ではないということです。

聴衆の一人がLPXがより安価かもしれないと提案したとき、Rossは反論しました：「私はそれがより安価だとは実際には思いません。そのラックには多くのシリコンがあります。」LPXは、スケールで超低レイテンシ推論を必要とする顧客のためのVera Rubinプラットフォームへのプレミアム拡張として位置づけられており、予算推論カードとしてではありません。

また、モデルサイズにはハードキャップがあります。128 GBのSRAMを持つLPXラックは、FP8で約53 GBまでのモデルをホストできます。DeepSeek R1のようなより大きなモデルは、FP8でのFFNの重みが623 GBあるため、フロントパネルのC2Cポートを介して複数のLPXラックをチェーン接続し、FFNの重みをラック間で分散する必要があります。とはいえ、DynamoとNVIDIAのネットワーキングスタックは、エンドユーザーからこの複雑さの多くを隠すように設計されています。

Rubin CPXのキャンセルとVera Rubinの統合

Groqの買収は、製品計画の対立も解決しました。当初、Vera Rubinのロードマップには、Rubin CPXと呼ばれる第2のGPUバリアントが含まれており、長いコンテキストとKVキャッシュのワークロードに最適化されたGDDR7ベースのチップでした。GTC 2026で、参加者がRossに直接、Rubin CPXがキャンセルされたかどうかを尋ねました。

Rossは「一人一つの質問」と言って直接的なイエスまたはノーを避けました。しかし、別のIan BuckのプレスQ&Aで、NVIDIAはCPXが棚上げされ、LPUベースのデコードが今年出荷されることを確認しました。LPUは、GPUバリアントではなく専用のSRAMを使用して、同じコンテキスト非依存のメモリ容量推論問題を解決します。

その結果、Vera Rubinの統合は、アテンションとKVキャッシュタスクにRubin GPUを標準化し、LPXラックがFFNの実行とMoEのディスパッチを担当するようになりました。さらに、これにより製品スタックが簡素化されます：GPU SKUを増やす代わりに、NVIDIAは明確なGPU–LPUの労働分担に依存しています。

LPUとRubinに関するよくある質問

なぜRubin GPUをもっと展開しないのですか？

Vera Rubin GPUを追加することで、バッチ全体のスループットが増加します—より多くの並列リクエストを同時に処理できます。しかし、トークン生成は本質的に順次であるため、単一リクエストのデコードレイテンシは改善されません。LPUは、システム全体のスループットだけでなく、リクエストごとのレイテンシを削減するように設計されており、2つのアプローチを補完的にしています。

35倍のスループット改善はどのように測定されますか？

35倍の数字はシステムレベルの指標です。それは、Vera Rubin NVL72とGroq 3 LPXの完全な展開を、Grace Blackwell NVL72のみのシステムと比較し、メガワットあたりのトークン数で測定します。それはGPUごとの改善ではなく、ベースラインはB200x8やH100x8のような小さな構成を明示的に除外しています。

GPUからLPUへのボトルネックはどこにありますか？

ラック間のレイテンシは現実的な考慮事項です。MicrosoftのエンジニアがGTCセッション中にこの点を直接指摘しました。Rossはその懸念を認め、ネットワークの改善が進行中であると述べました。一方、Dynamoは不要な転送を最小限に抑えるためにKV対応のルーティングを処理し、NVIDIAのMellanoxネットワーキングスタックはラック間リンクを管理してレイテンシを可能な限り低く保ちます。

LPUはモデルをトレーニングできますか？

いいえ。LPUは厳密にデコード専用です。FFNの実行を非常に高速かつ決定論的にするコンパイラ駆動の静的スケジューリングは、バックプロパゲーションの動的かつ反復的な性質には適していません。したがって、トレーニングワークロードは、柔軟で高スループットの計算に設計されたRubin GPUに残ります。

Groq 3 LPXはいつ利用可能になりますか？

RossはGTCで、Groq 3 LPXがすでに生産中であることを確認しました。Jensen Huangは、Vera Rubinプラットフォームの展開に合わせて、顧客への提供時期として2026年第3四半期を発表しました。Rossは、クリスマスの日の議論からGTCのステージまでの旅を「おそらく歴史上最も速い半導体の立ち上げの一つ」と表現し、約3か月にわたるものでした。

AI推論に対する戦略的影響

Groq LPUアーキテクチャは、GPUバリアントでは解決できないギャップを埋めます。それは、GPUがトランジスタやメモリを欠いているからではなく、順次でレイテンシに敏感なFFNデコードがその並列設計と一致しないからです。ユーザー数が増えるにつれて、より多くの同時リクエストが各データセンターに到達し、トークンごとのレイテンシのミリ秒が数千のセッションにわたって累積します。

この買収は、NVIDIAがLLM推論のデコード側においてGPUだけでは不十分であることを認識したことを示しました。さらに、それはより広範な業界のシフトを確認しました：専門のアクセラレータが、汎用GPUを完全に置き換えるのではなく、補完するために出現しています。

コンパイラ駆動のSRAMが150 TB/sでFFNの実行に最適なツールです。HBM4が22 TB/sで長いコンテキストとKVヘビーなワークロードに対するアテンションに最適なツールです。200億ドルの賭けは、両方を一緒に使用することで—Dynamoによって調整され、NVLinkと高速C2Cリンクを介して接続され—どちらも単独では達成できないシステムを作り出すことです。

NVIDIAのGTC 2026の発表と公式文書に基づいて、Groq 3 LPXは2026年第3四半期の提供を目指しています。立ち上げが予定通り進めば、Rubin–LPUの組み合わせスタックは、10年後半の大規模なAI推論のリファレンスアーキテクチャを定義する可能性があります。