プロセッサは、4つのNVENCと4つのNVDECビデオエンコーダをオンチップで直接統合し、外部処理依存関係なしで合理化されたマルチメディアワークフローを有効にします。パフォーマンスメトリックは、Rubin CPXがNvidiaの現在のベストGB300 Blackwell Ultra Accelerator Systemsの3倍の注意処理速度を提供していることを示唆しています。アーキテクチャは、マルチチップモジュールではなく、コストが最適化されたシングルダイアプローチを採用しており、計算密度を維持しながら製造の複雑さを潜在的に削減します。メモリ帯域幅の仕様は非公開のままですが、512ビットインターフェイスは、30 Gbps GDDR7メモリチップを使用する場合、約1.8 Tb/sのスループットを生成する可能性があります。 NVIDIAは、従来のルービンGPUと特殊なCPXバリアントを組み合わせたVera Rubin NVL144 CPXプラットフォーム内のルービンCPXプロセッサの統合を計画しています。このハイブリッド構成は、完全なラック展開全体にわたって、メモリ帯域幅の1.7 pb/sを備えた、総積分コンピューティングパフォーマンスをターゲットにします。 「Kyber」ラックには、1600Gネットワーキングが可能なConnectX-9ネットワークアダプター、102.4Tスイッチングを行うSpectrum6、および共同パッケージ化された光学系が含まれます。 Nvidiaは、2026年初頭に定期的にRubin GPUの発売後、2026年後半に到着することを計画しています。
AI Infraサミット中に、Nvidiaは、大規模なコントテキストAIモデル向けに特別に作られた「Rubin」ファミリーに由来する専門的な加速器である「Rubin CPX」GPUを発表しました。チップは、128 GBのGDDR7メモリを伴うモノリシックダイで30個のPetaFlopsのNVFP4コンピューティングパフォーマンスを提供します。モノリシックダイ構成は、Nvidiaの現在のBlackwellとBlackwell Ultra Architecturesの特徴的なデュアルGPUパッケージからの逸脱と、Rubinファミリーの残りの部分が続くデザインパスを表しています。 Rubin CPXは、AIモデルが数百万トークンを同時に処理する拡張コンテキストシナリオの計算ボトルネックに対処します。この機能は、包括的なソフトウェアコードベース分析や1時間のビデオコンテンツ処理を含むアプリケーションにとって重要であることが証明されています。これには最大100万トークンが必要です。プロセッサは、4つのNVENCと4つのNVDECビデオエンコーダーをチップで直接統合し、外部処理依存関係なしで合理化されたマルチメディアワークフローを可能にします。パフォーマンスメトリックは、Rubin CPXがNvidiaの現在のベストGB300 Blackwell Ultra Accelerator Systemsの3倍の注意処理速度を提供していることを示唆しています。アーキテクチャは、マルチチップモジュールではなく、コストが最適化されたシングルダイアプローチを採用しており、計算密度を維持しながら製造の複雑さを潜在的に削減します。メモリ帯域幅の仕様は非公開のままですが、512ビットインターフェイスは、30 Gbps GDDR7メモリチップを使用する場合、約1.8 Tb/sのスループットを生成する可能性があります。 NVIDIAは、従来のルービンGPUと特殊なCPXバリアントを組み合わせたVera Rubin NVL144 CPXプラットフォーム内のルービンCPXプロセッサの統合を計画しています。このハイブリッド構成は、完全なラック展開全体にわたって、メモリ帯域幅の1.7 pb/sを備えた、総積分コンピューティングパフォーマンスをターゲットにします。 「Kyber」ラックには、1600Gネットワーキングが可能なConnectX-9ネットワークアダプター、102.4Tスイッチングを行うSpectrum6、および共同パッケージ化された光学系が含まれます。 Nvidiaは、2026年初頭に定期的にRubin GPUの発売が行われた後、2026年後半にこれを計画しています。Nvidiaは、Rubin CPXをRubinファミリーの1回限りとしてプッシュし、テスト時間スケーリングAIシステムの推論の複雑さに対処します。モデルが洗練された推論システムに向かって単純なテキスト生成を超えて進化するにつれて、推論操作は、計算集中的なコンテキスト処理とメモリバンド依存性トークン生成フェーズの間にますます分割されています。 CPX設計は、専用のアーキテクチャを通じてこれらのデュアル要件を最適化し、256,000トークンまたは100,000行を超える包括的なコード分析でエンタープライズチャットボットセッションにまたがる可能性のあるコンテキストPrefill操作を処理します。 AIシステムが基本言語モデルから、拡張された相互作用全体で永続的なメモリを維持する推論エージェントに遷移するにつれて、この専門化が重要になります。したがって、そのすべてをハードウェアで有効にする必要があり、Nvidiaは開発者にとってシームレスな体験にしたいと考えています。