Tools

TorchTPU: PyTorch läuft jetzt nativ auf Google TPUs

tools pytorch tpu google ml-infrastruktur

Die Brücke zwischen PyTorch und Google Hardware

Googles Tensor Processing Units (TPUs) waren lange Zeit eng mit TensorFlow und JAX verbunden. Das ändert sich jetzt: TorchTPU ermöglicht PyTorch-Entwicklern, Googles Custom-ASICs nativ zu nutzen – ohne den Umweg über XLA-Kompilierung.

Die Herausforderung: Moderne KI-Workloads verteilen sich über Tausende von Beschleunigern. Modelle wie Gemini und Veo laufen auf Clustern von O(100.000) Chips. Die Software muss dabei neue Anforderungen an Performance, Hardware-Portabilität und Zuverlässigkeit erfüllen.

Was TorchTPU bringt:

  • Native PyTorch-Integration ohne XLA-Overhead
  • Volle TPU-v5- und v6-Unterstützung
  • Transparente Verteilung über Pods
  • Kompatibilität mit existierenden PyTorch-Workflows

Für ML-Teams bedeutet das: Die riesige PyTorch-Codebase kann jetzt direkt auf TPUs laufen, die für Googles eigene KI-Plattformen optimiert sind. Das reduziert die Fragmentierung zwischen Trainings- und Inferenzumgebungen.

Der Kontext: Google nutzt TPUs seit 2015 für interne Workloads. Die achte Generation (TPU v8) wurde kürzlich für die Agentic-Ära angekündigt – zwei spezialisierte Chips namens TPU v8 T (Training) und TPU v8 I (Inference). TorchTPU macht diese Hardware jetzt für die breitere PyTorch-Community zugänglich.

Original bei Google Developers Blog