Tesla P: Rechenbeschleuniger für Deep Learning

Die superkompakte Tesla P4 ist dank des GP104-Grafikchips enorm leistungsfähig. Sie schafft 22 Billionen Int8-Operationen pro Sekunde und schluckt höchstens 75 Watt.

Die Forschung im Bereich der künstlichen Intelligenz erlebt gerade einen Boom: Die Kombination von neuronalen Netzen mit gewaltigen Datenmengen (Deep Learning) erlaubt es Maschinen, die Inhalte von Bildern, Handschriften, Videos und Stimmen zu erkennen oder auch Autos autonom zu steuern. Das erfordert allerdings enorm hohe Rechenleistung, insbesondere beim Trainieren der neuronalen Netze – da kommen Grafikprozessoren (GPUs) gerade recht. Beim Anwenden der trainierten Daten auf reale Aufgaben in Echtzeit (Deep Learning Inferencing) muss die Rechenleistung aber ebenfalls stimmen. Und genau dafür bietet Nvidia nun speziell optimierte Karten an: die Tesla P4 und die Tesla P40.

Die in halber Bauhöhe gefertigte Tesla P4 ist kaum länger als der PCIe-x16-Steckplatz. Für eine derart kompakte Bauform rechnet die P4 erstaunlich fix: die 2560 Rechenkerne der GP104-GPU packen 5,4 TFlops bei einfacher Genauigkeit und 22 Tops bei 8-bittigen Integer-Datentypen fürs Deep Learning Inferencing.

Die Karte kommt mit einer Leistungsaufnahme von 75 Watt aus – also mit 100 Watt weniger als handelsübliche Consumer-Grafikkarten mit GP104-GPU. Alternativ lässt sich die P4 auch in einem 50-Watt-Modus betreiben – etwa um die Kühlung eines Blade-Servers nicht zu überfordern. Nvidia lässt die P4-GPU mit einem Basistakt von 810 MHz laufen; der Turbo-Takt liegt bei 1063 MHz. Als Speicher kommt GDDR5-SDRAM zum Einsatz, der 8 GByte Daten fasst und eine Transferrate von 192 GByte/s erreicht.

Die Tesla P40 nimmt zwei Steckplätze in Beschlag und ist durch ihren GP102-Grafikchip wesentlich leistungsfähiger. Die 3840 Rechenkerne erreichen 12 TFlops bei Single Precision und 47 TOPS bei Int8. Ihnen stehen 24 GByte an GDDR5-Speicher zur Verfügung, der mit 346 GByte/s arbeitet. Die Leistungsaufnahme der Tesla P40 beträgt maximal 250 Watt.

Die Pascal-GPUs beider Tesla-Karten enthalten außerdem je eine Decoding- und zwei Encoding-Engines zur parallelen Verarbeitung und Analyse mehrerer Video-Streams. Unterstützt werden über das Nvidia-Deepstream-SDK die Formate H.264, H.265/HEVC, MPEG-2, MPEG-4 und VP9. So ließen sich nach Angaben von Nvidia mit einem Tesla-P4-Server mehr als 90 Videostreams im Format 720p30 gleichzeitig analysieren, wofür man sonst 13 Server mit je einem Intel Xeon E5-2650-v4-Prozessor (jeweils 12 Kerne/24 Threads) bräuchte. (mfi@ct.de)