c't 16/2021
S. 34
Aktuell
Supercomputer
Bild: AMD/NERSC

Spitzenkampf

Top500-Supercomputer: AMD legt kräftig zu

AMDs Epyc-Prozessoren rechnen nun in 48 der 500 schnellsten Supercomputer – auch im neuen „Perlmutter“ auf Rang 5. Intels Xeon dominiert aber weiterhin. Deutschland legt bei der Rechenleistung weiter zu, wird aber in der EU bald überholt.

Von Andreas Stiller und Christof Windeck

Auf der 57. Liste der 500 schnellsten Supercomputer der Welt zog ein neues System in die Top 10 ein: „Perlmutter Phase 1“ alias NERSC-9 auf Rang 5. Eine Kombination aus AMD-Prozessoren – in diesem Fall vom neuesten „Milan“-Typ Epyc 7003 – und Nvidia-Rechenbeschleunigern (A100) stellt dem kalifornischen „National Energy Research Scientific Computing Center“ (NERSC) 64,6 Petaflops (PFlops) Rechenleistung bereit. Die AMD-Nvidia-Kombi liefert auch bei der Effizienz, also der Rechenleistung pro Watt, gute Resultate: Perlmutter steht auf Platz 6 der Green500-Liste der effizientesten Superrechner.

Bei den Top500-Supercomputern dominiert zwar Intels Xeon-Prozessor, aber die AMD-Epyc-Kurve zeigt steil nach oben.

Am oberen Ende änderte sich wenig, außer dass der Einstieg von Perlmutter den arabischen Superrechner Dammam-7 aus den Top Ten warf. Das schnellste europäische System rutschte von Platz 7 auf 8, steht aber weiterhin in Jülich: Das Jewels Booster Module mit 44,1 PFlops kombiniert ebenfalls Epyc und A100, aber den Vorgänger Epyc 7002 (Rome) statt 7003. Auf der Green500-Liste folgt Jewels Booster unmittelbar auf Perlmutter.

Absolut schnellstes System bleibt der japanische Gigant „Fugaku“ mit ARM-Prozessoren (Fujitsu A64FX) und 442 PFlops. Der Abstand zu den US-amerikanischen Verfolgern Summit und Sierra, die vor drei Jahren die chinesischen Spitzenreiter in die Schranken wiesen, ist riesig: Fugaku ist dreimal so schnell wie Summit, zehnmal so schnell wie Jewels Booster und hat so viel Rechenleistung wie die hinteren 250 Systeme auf der Top500-Liste zusammen.

Um überhaupt auf die Liste zu kommen, sind mittlerweile 1,51 PFlops nötig; durch 58 Neuzugänge stieg die aggregierte Rechenleistung sämtlicher Top500-Systeme um etwa 15 Prozent auf rund 2,8 Exaflops (EFlops). 30 Prozent davon vereinen die 122 US-Systeme auf sich, 22,5 Prozent entfallen auf Japan – vor allem dank Fugaku – und 19 Prozent auf die 188 chinesischen Superrechner (541 PFlops). Knapp dahinter (533 PFlops) liegt die EU im Verbund mit Großbritannien, Norwegen und der Schweiz. Die 23 deutschen Systeme tragen dazu mit fast 169 PFlops wiederum etwa ein Drittel bei, das entspricht 6 Prozent der gesamten Top500-Leistung.

57. Top500-Liste der Supercomputer: Top-10 und schnellste in Europa
Rang Name Land CPU-Typ Beschleuniger RPeak
1 Fugaku Japan A64FX 442 PFlops
2 Summit USA Power9 Tesla V100 149 PFlops
3 Sierra USA Power9 Tesla V100 95 PFlops
4 Sunway TaihuLight China Sunway SW MPP 93 PFlops
5 Perlmutter USA Epyc A100 65 PFlops
6 Selene USA Epyc A100 63 PFlops
7 Tianhe-2A China Xeon Matrix-2000 61 PFlops
8 Juwels Booster Deutschland Epyc A100 44 PFlops
9 HPC5 Italien Xeon Tesla V100 35 PFlops
10 Frontera USA Xeon 24 PFlops
weitere europäische Supercomputer
14 Marconi-100 Italien Power9 Tesla V100 22 PFlops
15 Piz Daint Schweiz Xeon Tesla P100 21 PFlops
17 SuperMUC-NG Deutschland Xeon 19 PFlops
18 Hawk Deutschland Epyc 19 PFlops
21 Pangea III Frankreich Power9 Tesla V100 18 PFlops

Exa-Pläne

Vielleicht noch 2021 – im November erscheint die 58. Ausgabe der Liste –, spätestens aber 2022 sollen die ersten Systeme mit mehr als 1 Exaflops erscheinen. Heißester Kandidat ist „Frontier“ am Oak Ridge National Laboratory (ORNL) in den USA, der mit reiner AMD-Technik bis zu 1,5 EFlops liefern soll. Dazu koppelt die HPE-Tochter Cray in jedem Knoten einen speziell optimierten Milan-Epyc mit vier Instinct-MI-Beschleunigern – und zwar nicht etwa per PCI Express, sondern mit dem kohärenten Infinity Fabric von AMD. Das würde AMD-Rechenbeschleuniger nach vorne bringen, die derzeit spärlich vertreten sind: Ein einziger Supercomputer steht gegen 140 Systeme mit Nvidia-Chips.

Peinlich für Intel sind weitere Verzögerungen beim Xeon-SP der vierten Generation „Sapphire Rapids“, der zusammen mit ebenfalls von Intel entwickelten „Ponte Vecchio“-Beschleunigern den Aurora am Argonne National Laboratory befeuern soll. Inzwischen könnte es selbst für die 59. Top500-Liste im Juni 2022 knapp werden. Ebenfalls im kommenden Jahr soll der gewaltige „El Capitan“ mit Zen-4-Technik von AMD schon die 2-EFlops-Marke knacken.

Ein chinesischer EFlops-Supercomputer könnte den USA die Suppe versalzen, doch um die drei Exascale-Projekte in China ist es still geworden.

Die EU backt kleinere Brötchen, die aber schneller: Noch 2021 könnte in Finnland der LUMI mit AMD-Technik und schätzungsweise 375 PFlops starten – seine theoretische Rechenleistung RPeak liegt sogar höher als die von Fugaku, die Linpack-Leistung (RMax) könnte also auch 400 PFlops erreichen. Das wäre mehr als doppelt so viel wie alle aktuellen deutschen Top500-Systeme zusammen. Im LUMI-Konsortium, das insgesamt 200 Millionen Euro aufbringt, kooperieren zehn EU-Länder, darunter alle skandinavischen sowie etwa Polen, Belgien und Österreich.

Auf den Rängen 26 bis 29 der Top500-Liste stehen erstmals vier Cloud-Superrechner, die Microsoft in vier Azure-Regionen in den USA und Europa anbietet. Auch sie bestehen aus der Kombination AMD Epyc (Rome) plus Nvidia A100. Bei den Systemherstellern führt Lenovo mit 182 Systemen, gefolgt von HPE und der HPE-Sparte Cray (zusammen 77); in Europa punktet Atos (31).

Hersteller-Wettstreit

In 432 der 500 Superrechner stecken Intel-Xeons, auf der 56. Top500-Liste waren es aber noch 458. Für den Xeon-Schwund ist vor allem der AMD Epyc verantwortlich, weder ARM noch IBM können nennenswert punkten. Die meisten Systeme rechnen ohne Beschleuniger, aber wenn welche drinstecken, dann fast immer welche von Nvidia. Doch AMD will mit neuen Versionen der Instinct MI richtig loslegen, nämlich in Frontier, LUMI sowie einem Superrechner für das australische Radioteleskop Square Kilometer Array. Man munkelt über eine Instinct MI200 „Aldebaran“ mit 50 TFlops und 128 GByte HBMe-RAM. Es wird spannend, wie sich Intels Xe HPC alias Ponte Vecchio im Vergleich dazu schlägt. (ciw@ct.de)

Kommentieren