Google-Analytics-Chef: "Mit generativer KI kommen wir endlich an alle Daten"

Der Deutsche Gerrit Kazmaier ist bei Google Cloud für alles zuständig, was mit Datenanalyse zu tun hat. Im Interview sagt er, was das in Zeiten von KI heißt.

In Pocket speichern vorlesen Druckansicht 67 Kommentare lesen
Schriftzug "Google" an Glasfassade eines Bürogebäudes

(Bild: Daniel AJ Sokolov)

Lesezeit: 8 Min.

Gerrit Kazmaier trägt den Titel Vice President und General Manager für den Bereich Data and Analytics bei Google Cloud. Vor seinem Umzug ins Silicon Valley war er Präsident des HANA- und Analytics-Teams bei SAP in Deutschland und leitete dort die Bereiche Datenbanken und Data Warehousing. Seine Arbeit bei SAP führte ihn außerdem als Vizepräsident der SAP Analytics Cloud nach Vancouver in Kanada. Er hat in Konstanz und Nottingham studiert.

Wer an Google Cloud denkt, denkt häufig zuerst an BigQuery, Ihr Data-Warehouse-System. Wie kam es dazu, dass es entstanden ist?

BigQuery wurde ursprünglich erfunden, um Googles eigene Data-Processing-Herausforderungen zu bewältigen. Unsere Datenvolumen waren schnell enorm groß. Billionen einzelner Datensätze mussten sehr dynamisch aggregiert werden – allein für Google AdSense und das restliche Anzeigengeschäft. Weil es dafür keine Lösung von der Stange gab, die ausreichend skaliert und das bewerkstelligen konnte, hat Google das dann selbst gebaut, mit unserem Engineering-Talent.

Gerrit Kazmaier.

BigQuery wurde dann schnell auch für Kunden geöffnet.

Ja, es ist eines der meistgenutzten Systeme. Unsere Kunden, es sind über 10.000 mittlerweile, machen ungefähr eine Billion Data-Querys am Tag auf BigQuery – und das ist alles ohne Google selbst. Wir nennen es inzwischen eine AI-Ready-Data-Foundation, die viele Dinge bewerkstelligt, die unheimlich wichtig sind für die erfolgreiche Anwendung von KI.

KI braucht zunächst einmal Trainingsdaten.

Genau, um überhaupt sinnhaft irgendetwas zu lernen. Und es gibt natürlich wahnsinnig mächtige Foundation-Modelle, die auf öffentlichen allgemeinen Daten trainiert sind, die unheimlich tolle Dinge bewerkstelligen können. Die wissen aber natürlich nichts von dem, was in einem spezifischen Unternehmensindex liegt. Für uns erwächst daraus die wichtige Erkenntnis, dass die Datenstrategie und die KI-Strategie eigentlich fast eins sind, zwei Seiten der gleichen Medaille. Hinzu kommt, dass Analytics, also die Datenanalyse und mein zweiter Job, natürlich immer mehr durch KI selbst stattfindet.

Unternehmensdaten sind oft wie eine Nadel im Heuhaufen, weil sie unstrukturiert vorliegen.

Und es werden ja immer mehr. Neben Büro-Dokumenten gibt es immer mehr Videos, Bilder oder Audio-Files, alles Dinge, die typischerweise nicht Bestandteil einer Enterprise-Data-Landschaft sind, weil es bislang einfach zu schwer war, sie zu analysieren. Mit generativer KI wird das alles auf einmal sehr dynamisch und ähnlich flexibel einlesbar wie eine SQL-Tabelle, die man ganz einfach abfragen kann.

Aber was lässt sich praktisch damit anfangen?

Man kann dann die wahnsinnigsten Dinge damit machen. Beispielsweise wenn ich wissen möchte, wie Kunden über mein Produkt empfinden, wie hoch das Risiko ist, dass ich sie verlieren könnte. Sounddateien aus dem Support kann man dann analysieren und Schlüsse daraus ziehen. Das ist eine wahre Schatzkiste. Oder nehmen wir die Kommunikation mit Lieferanten oder alles, was in E-Mails und Social-Media-Postings steckt. Das repräsentiert unglaubliche Werte, wenn man das analysieren kann. Und das wird mit generativer KI endlich möglich, wir kommen an diese Daten jetzt wirklich ran.

Google ist bekannt dafür, die unterschiedlichsten Daten zu verarbeiten, seien es nun Texte, Bilder, Videos oder Audio. Wie hilfreich ist das für Unternehmenskunden?

Die Multimodalität der Daten ist zunächst einmal ein ganz wesentliches Merkmal, mit dem BigQuery umgehen kann. Das andere Element, das wir machen können, ist die direkte Verbindung zu Vertex AI, unsere vereinheitliche KI-Plattform. Das heißt, wenn ich meine Daten in BigQuery habe, Dokumente beispielsweise, und ich möchte jetzt die Document API nutzen, dann kann ich einfach in BigQuery mit Python programmatisch sagen: Hey, verbinde mal diese Daten, diese Tabelle mit diesem Large Language Model und extrahiere mir das und das. Und dann macht das BigQuery im Hintergrund, ohne dass man selbst Daten exportieren oder integrieren müsste.

Google ist datengetrieben. Da dürfte bei dem ein oder anderen Cloud-Kunden die Angst bestehen, dass auf den eigenen Daten trainiert wird.

Da kommt natürlich nichts davon bei Google an. Das ist alles streng separiert. Es gibt eine strenge Firewall. Unabhängig von den Grundgarantien, die jeder Kunde hat, kann er darüber hinaus natürlich auch noch seine eigene Verschlüsselung nutzen, festlegen, wie Daten gespeichert werden, Data in Processing genauso absichern wie Data in Transit.

Google Cloud hat zahlreiche große Kunden, darunter auch Apple, die Ihre Server für iCloud nutzen – neben Amazon Web Services und eigener Infrastruktur.

Auch hier gilt: Kundendaten sind Kundendaten.

Google hat wie alle KI-Anbieter das Problem, dass große Sprachmodelle noch immer halluzinieren – und die Nutzer nicht wissen, was vom ausgegebenen Text stimmt und was nicht. Bei Business-Daten ist das ein Problem.

Es ist unheimlich wichtig, dass man ein ausreichendes Grounding betreibt – oder, wie man auf Deutsch sagt, die Modelle auf Faktenbasis "erdet". Dafür stellen wir in Vertex AI und BigQuery eine Reihe von Diensten bereit, die genau das bewerkstelligen.

Wie konkret? Wird die Google-Suche einbezogen?

Die Suche natürlich, aber auch über spezielle Arten, das Modell anzufragen, über spezielle Checks. Das betrifft den gesamten Lifecycle, nicht erst den Prompt. Es fängt schon damit an, wie die Modelle trainiert werden. Wir brauchen eine Fehlererkennung.

Wenn das Modell dann sagt: Ich denke, diese Metrik ist interessant, dann können wir natürlich sagen, match das mal bitte mit den vorhandenen Daten, um festzustellen, ob sie auf Fakten basiert. Ist dem nicht so, gibt man das an das Modell zurück und probiert es erneut. Es gibt also viele Strategien, die dieses Problem der Halluzinationen so weit wie möglich reduzieren. Und letztlich landen wir dann immer wieder bei den harten Daten.

Google Cloud gibt seinen Kunden über Vertex AI Zugriff auf einen Model Garden, der auch konkurrierende Systeme zu Gemini enthält. "Entdecken und nutzen Sie die größtmögliche Vielfalt an Modelltypen", schreibt Google dazu. Soll das so beibehalten werden?

Auf jeden Fall.

Wenn Google jetzt einen Vertrag mit OpenAI schließen würde, käme GPT-4 da dann auch hinein?

Das ist eine gute Frage, da bin ich wahrscheinlich der Falsche, um sie zu beantworten. (lacht) Aber ich denke, unsere Prinzipien sind klar. Wir bieten alle Modelle an, die wir anbieten können – unsere eigenen Foundation-Modelle, andere First-Party-Modelle und auch Resource-Modelle. Und die Idee dahinter ist, dass alle Modelle verschiedene Eigenschaften haben, bei Cost, Performance, Latenz oder Spezialisierung zu einem bestimmten Anwendungsfall. Und es ist sehr wichtig für unsere Kunden, die Möglichkeit zu haben, das richtige Modell für den richtigen Kontext auszuwählen.

Weil eines ist doch klar: Wir sprechen hier über eine ganz neue Welt oder auch ein ganz neues Mindset, weil vieles von dem, was wir bisher gemacht haben, sich komplett ändert. Data Analytics wurde einst für Menschen gemacht, für statische Anwendungen, für Dashboards, KPIs und so weiter. Jetzt leben wir in einer Welt, wo wir sagen, Data Analytics wird wahrscheinlich in diesem Jahr und in den folgenden Jahren massiv von neuen intelligenten Agenten benutzt. Das ist ein ganz neues Paradigma. Mit generativer KI kommen wir endlich an alle Daten.

Was macht das mit den Firmen?

Vor zwei Jahren hätte man wahrscheinlich gesagt, dass sie alle letztlich Software-Companies sind. Alle haben Entwickler eingestellt, alle haben gelernt, was ein Software-Lifecycle ist, was ein Service ist, egal ob es nun ein Waschmaschinenhersteller war oder eine Maintenancefirma.

Und jetzt, glaube ich, kommt man an den Punkt, wo eigentlich jedes Unternehmen sagt, naja, eigentlich sind wir zu einem großen Teil eine AI-Company, denn wir haben einen Unique Asset. Und das sind unsere Daten, die unser Unternehmen beschreiben. All unser geistiges Eigentum, das uns einzigartig macht, steckt darin. Und jetzt müssen wir die richtigen KI-Modelle nehmen, um diese Daten zu aktivieren, die uns so besonders machen.

Das Interview wurde zur besseren Lesbarkeit ediert und gekürzt. Der Autor reiste auf Einladung von Google zur Google Cloud Next.

(bsc)