- Maia 200 は、3nm プロセスを使用して製造され、1,400 億個を超えるトランジスタを搭載した、Microsoft の第 2 世代 AI 推論アクセラレータです。
- このチップは、FP4 で最大 10 PFLOPS、FP8 で最大 5 PFLOPS、216 GB の HBM3e メモリを提供し、Trainium や TPU よりもユーロ/ドルあたりの効率を優先し、Nvidia に対抗します。
- これは、Copilot、OpenAI モデル、および高度な社内プロジェクトに対応するために Azure インフラストラクチャに統合されており、最初は米国中部で展開され、徐々に拡張されます。
- これは、構造的なコストを削減し、技術的な独立性を獲得し、AIシリコン戦争におけるマイクロソフトの地位を強化するための「シリコンからサービスへ」戦略の一環だ。
マイクロソフトは、人工知能インフラ戦略において新たな一歩を踏み出した。 第二世代の推論アクセラレータであるMaia 200このチップは、生成 AI の爆発的な増加の中で Azure の提供を強化するために登場し、ついでに同社の Nvidia やその他の外部プロバイダーへの依存度を下げることを目的としている。
マイア200は単なる部品ではなく、 シリコンからクラウドサービスまでを網羅する統合モデルの中心目標は明確です。データセンターの運用コストを最大限に抑えながら、大規模な言語モデルと高度な推論システムを、投資額当たりのパフォーマンスを高めて実行することです。
大規模推論用に設計されたアクセラレータ
マイア200は、 人工知能モデルの推論段階これは、事前学習済みのシステムがクエリを処理し、リアルタイムの応答を生成する瞬間を指します。アシスタント、企業向けチャットボット、AIを活用した生産性向上ツールなどのサービスに対する、毎日数百万件ものリクエストが集中する場所です。
同社はマイア200を次のように定義している。 Azure に導入された中で最も効率的な推論システム同社の内部データによれば、このチップは、同社の従来のハードウェアに比べて 1 ドル (または 1 ユーロ) あたり最大 30% 高いパフォーマンスを提供します。これは、クエリ量が飛躍的に増加し、エネルギー料金が利益率に下押し圧力をかけ続ける場合に重要な要素となります。
新しい加速器は、実質的に このデザインの第一世代であるマイア100顧客には提供されませんでした。Maia 200により、マイクロソフトはラボでの実験から自社のデータセンターへの実環境導入へと移行し、このプラットフォームを注目度の高いビジネスサービスと連携させています。
この文脈では、独自のハードウェアへの取り組みは、大手クラウドプロバイダーの一般的な傾向と一致しており、 Nvidiaだけに頼らない 同時に、Google(TPU)やAmazon Web Services(TrainiumとInferentia)などの競合他社との差別化を図り、次のような問題に直面しています。 GPUの遅延.
アーキテクチャと製造プロセス: 3 nm、140.000億個以上のトランジスタ
技術的なレベルでは、マイア200は次のようなプロセスで製造されています。 TSMC 3ナノメートル(N3Pノード)は、現在大量生産可能な最も先進的なチップの一つです。各チップには、 140.000億個のトランジスタこれは、現在の AI モデルの規模と今後数年間にサポートされることが予想されるワークロードを反映した、複雑さの飛躍的な増加です。
内部設計はコンピューティング階層に基づいて構成されており、その基本要素はいわゆる "タイル"ローカルコンピューティングとストレージ機能を備えた自律ユニットとして機能します。各タイルには2つのメインエンジンが組み込まれています。 タイルテンソルユニット(TTU)は、高性能な行列乗算と畳み込み演算に重点を置いています。一方、 タイルベクタープロセッサ(TVP)より高い柔軟性が求められるタスク向けの、高度にプログラム可能な SIMD エンジンです。
複数のタイルがグループ化されて 共有SRAMメモリを備えたクラスターこれにより、第2レベルのデータ局所性が導入されます。この構成により、完全なシステムオンチップレベルへのスケーリング前に、複数のタイル間での実行を効率的に調整できるため、ボトルネックが軽減され、ハードウェア使用率が向上します。
AIパフォーマンスの鍵となるメモリサブシステムは、 オフチップトラフィックを最小限に抑え、帯域幅の圧力を軽減します基本的な考え方はシンプルですが、実装するのは簡単ではありません。つまり、モデルがデータの到着を常に「待つ」必要がないように、できるだけ多くの高速メモリを計算の近くに配置します。
メモリ、精度フォーマット、および PFLOPS でのパフォーマンス
Maia 200の特徴の一つは、内蔵メモリと超高速外部メモリの組み合わせです。チップ自体には、 272 MBのSRAM異なるレベル(各タイルのTSRAMと各クラスタのCSRAM)に分散されています。このSRAMはソフトウェアによって管理され、詳細な制御が可能です。 ワークロードに応じたデータの局所性.
これらのブロックは、 216 GBのHBM3eメモリは、特に大規模言語モデルに関係する計算量に近いものであり、そのコストは GDDR6メモリの価格.
計算能力の面では、マイクロソフトはチップが最適化されていると述べている。 FP4やFP8などの低精度フォーマットこれにより、多くの生成AIおよび推論アプリケーションに適した結果の品質を維持しながら、パフォーマンスを向上させることができます。Maia 200は約 FP4では10 PFLOPS、FP8では5 PFLOPS周辺に位置しているだけでなく、 BF16で1,3 PFLOPS.
同社のデータによると、FP4のパフォーマンスは BF16の8倍、FP8の約2倍 他の条件は同じです。これは、1秒あたりに処理されるトークン数の明確な増加につながります。これは、数百万人のユーザーが同時にテキスト、コード、またはマルチメディアコンテンツを生成するシナリオでは非常に重要です。
と スロットルあたり約750WのTDPMaia 200 は、データ センター チップの中ではハイエンドの消費範囲に位置付けられていますが、Microsoft が競合製品に対する主な利点の 1 つとして挙げているパフォーマンス/エネルギー比でそれを補っています。
接続性、スケーラビリティ、AIトランスポート層プロトコル
純粋なコンピューティングに加えて、Maia 200には、 数千のアクセラレータを並列に動作させる規模このチップはシリコンに独自のネットワークカードを統合しており、双方向の帯域幅は約 2,8 TB/秒したがって、高性能通信用の外部カードは必要ありません。
ノード間の通信は、特定のプロトコルを介して行われる。 AI トランスポート層 (ATL)標準的なイーサネットインフラストラクチャ上で動作します。ATLは、パケットスプレー(複数のパスにパケットを分散する)やマルチポイントルーティングなどの技術を導入しています。 安定性を向上させ、混雑を軽減する 生成 AI に典型的な、トラフィック量の多いシナリオにおいて。
もう一つの関連要素は、いわゆる 完全接続クワッド(FCQ)このトポロジーは、外部スイッチを介さずに直接リンクを使用して4つのMaia 200アクセラレータをグループ化します。このアプローチにより、テンソル通信のレイテンシが削減され、大規模に複製可能なモジュールブロックの構築が簡素化されます。
マイクロソフトによれば、このアーキテクチャにより、 6.144個のMaia 200加速器のクラスターこの数値は、将来の世代のマルチモーダル言語モデルを含む、より大規模なモデルのトレーニングと推論のニーズと一致しています。
実際には、チップは 複数の加速器のセットを収納するトレイまたはラックこれにより、既存のデータセンターへの統合が容易になります。同社は、このシステムを空冷式とより高度な液冷式の両方で動作するように設計し、さまざまなインフラ構成に適応させています。
Azure、Copilot、OpenAI モデルとの統合
Maia 200は単独で登場するわけではなく、マイクロソフトが定義するアプローチの一部として登場する。 「シリコンからサービスへ」ハードウェア、ソフトウェア、ネットワーク、モデルを一緒に設計して最適化し、パフォーマンスを最大化し、運用コストを最小化するという考え方です。
マイア200をベースにした最初のシステムはすでに配備されている。 Azure 米国中部リージョンこれらの初期クラスターは、マイクロソフトのスーパーインテリジェンスチーム、 マイクロソフトファウンドリー カスタムモデルの作成とスケーリングに焦点を当て、 マイクロソフト コパイロットMicrosoft 365 などのアプリケーションに統合されたアシスタント ファミリ。
同社は、 OpenAIのGPT-5.2を含む次世代モデルこれは、ChatGPTの設立当初から両社が維持してきた戦略的提携に沿ったものです。レイテンシとクエリあたりのコストの改善は、 より迅速で持続可能な大規模な対応 これらのサービスのために。
アメリカ以外にも、マイア200を ヨーロッパを含む他の Azure リージョンシステムの動作、効率、安定性が本番環境で検証されるにつれて、EU で活動する企業や政府機関にとって、データ主権と規制遵守の懸念を考慮すると、これらのアクセラレータがいつローカル データ センターに導入されるかを把握することが重要になります。
同時に、このチップは開発ツールのエコシステムと統合されており、プログラマーが習慣を一夜にして変える必要がないようにすることで、既存のプロジェクトへの導入を容易にしています。
開発者とソフトウェアエコシステムのためのツール
マイア200が単なる社内エンジニアリングの演習に留まらないように、マイクロソフトは、 企業、大学、オープンソースプロジェクト向けの専用SDK目標は、チップの機能を十分に調査し、ワークロードの最適化を支援する技術コミュニティを作成することです。
開発環境は、 PyTorchのような一般的なツールこれにより、既存のモデルを比較的容易に移植できます。コンパイラサポートも提供されています。 トリトンすでに GPU やアクセラレータを扱っている人にとって比較的アクセスしやすい言語を犠牲にすることなく、ハードウェアの機能を最大限に活用できるように設計されています。
より細かい制御を必要とするチーム向けに、Microsoftは言語を提供しています。 ネストされた並列言語 (NPL)チップのタイル、クラスター、ローカルメモリ階層を最大限に活用するように設計されています。このより「メタリック」なアプローチは、最適化を最大限に高めることに重点を置いています。 データの局所性と重要なルーチンの並列化.
実際には、この抽象化レベルの組み合わせは、 大企業と学術研究グループの両方 ゼロから始めることなく、モデルを新しいハードウェアに適応させることができます。同社は、導入を加速させるために、大学や研究チームを対象とした早期アクセスプログラムがすでに開始されていると発表しました。
これにより、マイクロソフトはMaia 200を独自のアクセラレータとしてだけでなく、 オープンで比較的馴染みのあるソフトウェアエコシステム内の基本的な構成要素 AIコミュニティ向け。
経済的・戦略的影響とシリコン戦争
経済面では、マイア200の開発は、 生成AIをサポートするインフラストラクチャの制御Copilot、Azure でホストされている OpenAI モデル、またはエンタープライズ AI アプリケーションを通過する各クエリには、使用されるハードウェアに大きく依存するコストが発生します。
マイクロソフトは独自の推論チップを持つことで 構造的なコストを削減し、支出の予測可能性を高め、外部サプライヤーとの交渉力を獲得する1ドル当たり30%のパフォーマンス向上という約束が生産において一貫して実現すれば、同社はAIサービスにおける利益率を大幅に向上できる可能性がある。
この戦略には地政学的および技術的主権の側面も含まれている。 欧州およびその他の地域では、デジタルの自律性とデータ管理について議論が行われている。独自のハードウェアをグローバル クラウドに統合することで、大企業や行政機関のテクノロジ パートナーとしての Microsoft の地位が強化されます。
Maia 200の発売は、GoogleのTPUやAmazonのTrainiumとInferentiaの動きに加わるものであり、多くのアナリストがすでに本格的な 「シリコン戦争」この戦いにおけるリーダーシップは、PFLOPS だけでなく、強力で効率的、かつ経済的に実現可能な AI を長期的に提供できる能力によっても評価されます。
今のところ、NVIDIAはAIアクセラレータ市場を支配し続けています。しかし、大手クラウドプロバイダーが独自のチップを推進していることは、 多様化と競争の拡大この競争では、シリコン設計からユーザーが使用する最終アプリケーションに至るまで、各関係者がバリューチェーンの可能な限り多くの部分をコントロールしようとします。
マイクロソフトは、Maia 200で、カタログに新しいアクセラレータを追加するだけでなく、 エンドツーエンドのAIインフラストラクチャを制御し、推論の経済性を微調整する3nm 設計、大規模な HBM3e メモリ、大容量の統合ネットワーク、Azure、Copilot、OpenAI モデルとの緊密な統合の組み合わせにより、このチップは、クエリあたりのコストとエネルギー効率が生のコンピューティング能力自体と同じくらい重要になる生成 AI の競争において重要なピースとして位置付けられます。