Googleは、4月の次のGoogle Cloudでの最初の発表に続いて、Hot Chips 2025でIronwoodテンソル処理ユニット(TPU)に関する詳細を発表しました。 Ironwoodは、Googleの第7世代TPUを表しており、大規模な推論ワークロード用に特別に設計されており、トレーニングに焦点を当てた前世代からのシフトを示しています。各アイアンウッドチップには、2つのコンピューティングダイが組み込まれており、FP8パフォーマンスの4,614 TFLOPSを提供します。 HBM3Eの8つのスタックを備えており、チップごとに192 GBのメモリを7.3 Tb/sの帯域幅で提供しています。システムアーキテクチャは、1ポッドあたり最大9,216チップをスケーリングし、1.2 Tb/sのI/O帯域幅によって促進され、接着剤ロジックの必要性を排除し、合計42.5のエクストラフロップスのパフォーマンスを達成します。アイアンウッドの重要なハイライトは、そのメモリ容量です。単一のPODは、1.77 PBの直接アドレス可能なHBMを提供します。Googleは、共有メモリスーパーコンピューターの新しい世界記録であると主張しています。この広範なメモリ容量は、ラックをリンクする光回路スイッチによって可能になります。 Ironwood TPUは、信頼性と回復力も強調しています。ハードウェアは、失敗したノードの周りに自動的に再構成し、チェックポイントからワークロードを復元できます。機能には、信頼のオンチップルート、組み込みのセルフテスト機能、サイレントデータの腐敗緩和、および製造利回りを改善するための論理修復機能が含まれます。 Googleによると、RAS(信頼性、可用性、およびサービス可能性)に重点が置かれていることが、アーキテクチャ全体に表示されます。冷却は、Googleの第3世代の液化インフラストラクチャと統合されたコールドプレートソリューションによって処理されます。 Googleは、Ironwoodが前任者のTrilliumと比較してワットあたりのパフォーマンスの2倍の改善を達成していると主張しています。動的電圧と周波数スケーリングは、さまざまなワークロード中の効率をさらに向上させます。 AI技術は、ALU回路とフロアプランを最適化するために、Ironwoodの設計にも採用されました。第4世代のSparseCoreが追加され、埋め込みと集合的な運用を加速し、推奨エンジンなどのワークロードをサポートしています。 Ironwoodの展開は現在、Google Cloudデータセンター内のHyperScaleで進行中です。ただし、TPUは内部プラットフォームのままであり、Google Cloudの顧客が直接利用できません。 ServethehomeのRyan Smithは、Hot Chips 2025でのGoogleのプレゼンテーションについてコメントし、「これは素晴らしいプレゼンテーションでした。グーグルは何世代も前にハイエンドのAIを作成する必要があると考えました。

Source: Googleは、大規模な推論についてはIronwood TPUの詳細を説明しています

  Instagramは「Instagram Pals」というハッシュタグを使ってバーチャルペットをストーリーに組み込むと噂されている