Prozessorgeflüster

Von Faulen und Fleißigen

Über Weihnachten sorgten weitere Benchmarkergebnisse des AMD Ryzen für reichlich Rauschen im Internet-Walde. Und es stellt sich die Frage, wie genau man Performance heutzutage überhaupt noch bestimmen kann.

Von Andreas Stiller

Wenn der kolportierte Preis von 399 US-Dollar (499 Dollar für die „Magic Edition“) für AMDs neuen Ryzen-Chip SR7 stimmt, dann hat AMD wirklich bald was Schlagkräftiges in der Hand. Das belegen jetzt auch die ersten Benchmark-Ergebnisse des französischen Spiele-Magazins Canard PC, das irgendwie an ein SR7-Prototyp-System herangekommen ist. Das lief zwar noch nicht perfekt, dennoch konnte der Prozessor schon recht gut punkten. Beim Rendering, beim Encoding und beim Spiele-Mix mit den üblichen aktuellen High-End-Spielen (auf AMD Fury X) lag er nur etwa 10 bis 14 Prozent hinter Intels edlem Achtkerner Core i7 6900K zurück, der erst für über 1000 US-Dollar zu haben ist. Gegenüber dem alten Bulldozer-Vorgänger FX8370 legte er um 60 beziehungsweise 40 Prozent zu.

Dabei lief der SR7-Prototyp nur mit einem Basistakt von 3,15 GHz und kam im Turbo auf 3,3 GHz (alle Kerne) oder 3,5 GHz (ein einzelner Kern). Beim Übertakten auf einem Kern konnten die Tester bis zu 5 GHz erzielen. Das derzeit noch nicht sicher laufende Hyper-Threading war offenbar nicht eingeschaltet. Zudem erwähnten die Franzosen auch einen bisher zumindest mir noch unbekannten Bug im µOP-Cache, der den aktuellen Prototypen zu schaffen machen soll.

Variation des Linpack über faule und fleißige Haswell-Prozessoren *Quelle: ZIH Dresden*

Genaue Einzelergebnisse wollte Canard PC nicht publizieren, um ihre Quelle zu schützen – AMD hätte aus den Werten womöglich Rückschlüsse ziehen können, etwa über das verwendete BIOS und die AGESA-Version (AMD Generic Encapsulated Software Architecture).

„How damn those naughty French can have access to AMD Zen?“, tönte es daraufhin empört von amerikanischen und anderen Sites. Und außerdem, wie können die die Informationen in einem Print-Magazin „verstecken“, statt sie sofort online und möglichst in Englisch auszubreiten? Das ist für die Amerikaner recht ungewöhnlich, wo Computerzeitschriften im Print inzwischen so gut wie tot sind. Zuweilen erscheinen hier in Europa heiße News sogar zuerst im Print und dann erst online – was dann zumeist schon kurz nach Erscheinen über illegal verbreitete Scans erfolgt.

Das ist bei uns nicht anders und auch wir hatten früher das eine oder andere Mal mit zu uns diffundierten Prototypen gemessen und uns damit viel Arbeit und Ärger eingehandelt. Und letztlich verhielten sich die finalen Versionen dann oft anders als die vermessenen Prototypen.

Aber selbst mit den finalen Versionen ist man vor größeren Überraschungen nicht gefeit. Der Pentium III mit 1,13 GHz etwa war offenbar noch nicht final genug, sondern im Takt-Wettlauf mit AMD völlig unausgereift an die einschlägigen Test-Sites verschickt worden. Unser Exemplar – ich hab es noch – lief zwar weitgehend problemlos, bei anderen jedoch, etwa Tom’s Hardware, stürzten die Prozessoren laufend ab. Letztlich musste deshalb Intels Mikroprozessor-Chef Albert Yu seinen Hut nehmen.

Heutzutage sind die zum Test geschickten Prozessoren zumeist stabil, aber hier hat man inzwischen das Problem der individuellen Streuung und die wird, seit es die Turbo-Modi gibt, immer größer. Denn es gibt „faule“ und „fleißige“ Chips. Was man dann gerade vor sich hat, unterliegt stark dem Zufall, abhängig von der jeweiligen Exemplarauswahl des Herstellers, von der Qualität der Kühlung, der (hoffentlich ordentlich aufgebrachten) Wärmeleitpaste, von Erdstrahlen …

Verstreuter Prozessor

Da geht es nicht etwa nur um ein paar wenige Prozent, sondern um bis zu 16 Prozent und mehr. Nur große Rechenzentren sind in der Lage, mit ihren Hunderten von gleichen Knoten mit gleichem BIOS und gleichem Microcode ordentliche Statistiken zu führen. An den Unis Mainz, Dresden, Austin, Illinois … überall hat man große Variationen gemessen – mit starker Abhängigkeit vom eingestellten Takt und von den jeweiligen Workloads. Mit dem Linpack, wie er im ZIH Dresden zum Einsatz kommt, erzielten die gleichen Haswell-EP-Prozessoren E5-2680 v3 bei 2,5 GHz Grundtakt je nach Knoten zwischen 355 und 400 GFlops. Die mittlere Energieaufnahme verteilte sich erstaunlicherweise kaum. Während jedoch in Dresden der Sandy Bridge EP nur wenig Performance-Variation zeigte, waren diese auf den beiden amerikanischen Großrechnern Stampede (TACC) und Cap (LLNL), gemessen mit MKL-DGEMM, sehr deutlich – allerdings auch sehr unterschiedlich, nämlich 8 Prozent hier und 15 Prozent dort.

Daneben gibt’s noch zahlreiche weitere Imponderabilien, bedingt etwa durch das Training der Speicher-Interfaces und der Links. Benchmark-Ergebnisse aktueller Systeme außerhalb großer Rechenzentren, hier und anderswo, sollte man inzwischen also grundsätzlich mit einem Plus/Minusfaktor von 5 oder gar mehr Prozent betrachten. (as@ct.de)