Radeon Open Compute „ROCm“ -Stack v3.1 veröffentlicht mit RAS für Vega 7nm, SLURM-Unterstützung für ein besseres Ressourcenmanagement, aber Navi fehlt immer noch

Die neue Version von Radeon Open Compute oder „ROCm“ Stack steht jetzt zum Download zur Verfügung. Die Radeon Open Compute v3.1 bringt einige Funktionen mit sich, aber seltsamerweise fehlt immer noch die Unterstützung für AMD Navi und GFX10.

ROCm, die am weitesten verbreitete universelle Plattform für GPU-beschleunigtes Computing, ist jetzt in Version 3.1 verfügbar. Das neueste Update der modularen Plattform, mit dem Hardwareanbieter Treiber erstellen können, die das ROCm-Framework unterstützen, enthält einige mit Spannung erwartete Funktionen wie die RAS-Unterstützung für 7-nm-Vega und die SLURM-Unterstützung für AMD-GPUs. Aus bisher unbekannten Gründen bietet der ROCm jedoch noch keine vollständige Unterstützung für die AMD Navi-Architektur der nächsten Generation.

Was ist neu in Radeon ROCm v3.1:

Die größte und offensichtlichste Änderung bei der Neuinstallation von Radeon ROCm v3.1 ist die Struktur des ROCm-Installationsverzeichnisses. Bei einer Neuinstallation des ROCm-Toolkits werden die Pakete im installiert/ opt / rocm- Mappe. Zuvor wurden ROCm-Toolkit-Pakete im installiert/ opt / rocm Mappe.

Die neue Version von ROCm bietet eine verbesserte Unterstützung für Zuverlässigkeit, Zugänglichkeit und Wartungsfreundlichkeit (RAS) für Vega 7-nm-GPUs. Diese 7nm Vega Arbeit ist vermutlich noch unter dem Mikroskop für die Vega-basierter „Arcturus“ Rechenbeschleuniger kommt in diesem Jahr. Die Unterstützung umfasst:

  • UMC RAS ​​- HBM ECC (nicht korrigierbare Fehlerinjektion), Seitenausfall, RAS-Wiederherstellung über GPU (BACO) -Reset
  • GFX RAS - GFX, MMHUB ECC (nicht korrigierbare Fehlerinjektion), RAS-Wiederherstellung über GPU (BACO) -Reset
  • PCIE RAS - PCIE_BIF ECC (nicht korrigierbare Fehlerinjektion), RAS-Wiederherstellung über GPU (BACO) -Reset

Radeon ROCm v3.1 erhält auch SLURM-Unterstützung für AMD-GPUs. SLURM oder Simple Linux Utility für das Ressourcenmanagement ist eines der am meisten bevorzugten und leicht zu verwendenden Clusterverwaltungs- und Jobplanungssysteme für Linux-Cluster. SLURM wird bevorzugt, da es Open Source, fehlertolerant und hoch skalierbar ist.

Dieses System kann jetzt gut mit AMD-GPUs interagieren. Die neueste Version 20.02.0 von SLURM enthält AMD-Plugins, mit denen SLURM AMD-GPUs automatisch erkennen und konfigurieren kann. Außerdem wird der Energieverbrauch von Grafikchips erfasst und gemeldet. Die SLURM-Unterstützung ist eine nützliche Ergänzung angesichts der zunehmenden Anzahl von Super-Computing-Bereitstellungen mit Radeon-GPUs und anderen größeren AMD-GPU-Clustern.

Trotz der Aufnahme mehrerer Funktionen gibt es in ROCm noch keine Anzeichen für eine Unterstützung von GFX10 / Navi. Die GitHub-Seite für ROCm wurde aktualisiert, um alle Änderungen, Installationshinweise und bekannten Probleme widerzuspiegeln.

Facebook Twitter Google Plus Pinterest