Matrix-Multiplizierer

KI-Hardware auf der Hot Chips HC32

KI-Beschleuniger gehen ans Maximum des Machbaren: Cerebras benutzt einen kompletten Wafer als Chipfläche.

Von Pina Merkert

Wer die virtuelle Hot-Chips-Konferenz 2020 mitverfolgt hat, bekommt den Eindruck, jede Art von Rechner wäre ein künstliches Gehirn. Bei der Vorstellung der Grafikprozessoren von Intel (Xe) und Nvidia (A100) war beispielsweise kaum von Grafikberechnungen die Rede. Die Entwickler sprachen vor allem darüber, wie stark sie Matrixmultiplikationen beschleunigen und wie schnell sie die Gewichte großer neuronaler Netze in ihren Speicher schaufeln können (Intel Xe HP schätzungsweise 1,64 TByte/s mit HBM2, Nvidia A100 1,56 TByte/s mit HBM2).

Der Trend zu immer größeren neuronalen Netzen − das Sprachmodell GPT-3 von OpenAI nutzt beispielsweise 175 Milliarden Parameter − erlaubt den Herstellern, immer mehr spezialisierte Hardware für das Training und das Anwenden (Inferencing) solcher Netze zu verkaufen. Auf den Chips läuft aber nicht jedes Netz gleich schnell. Wollen Datenwissenschaftler beispielsweise Googles neueste Tensor Processing Unit TPUv3 auslasten, können sie nicht ignorieren, dass sie ein Raster aus 128 × 128 Rechenwerken enthält und damit Neuronenschichten mit dieser Größe oder einem Vielfachen davon sinnvoller sind, als welche, die Teile des Chips brachliegen lassen.