Können wir künstlicher Intelligenz vertrauen, Frau Zweig? Die ZEIT 27.7.23
"[...]ZEIT: Sie erforschen eines der wichtigsten Themen unserer Zeit. Wie wurden Sie zur Expertin?
Zweig: Es gibt dazu eine Geschichte. Ich bin etwa sieben, als Nachbarn wegziehen. Meine Mutter ruft in den Hof: "Willst du Tschüss sagen?" Ich: "Nö." Sie: "Du wirst das vielleicht bereuen." Aber ich spürte, dass das nicht der Fall sein würde – denn ich hatte mit denen kaum etwas zu tun. Damals wurde mir klar, dass eine gute Entscheidung immer auf allen relevanten Informationen fußt, die man in diesem Moment hat. Diese Idee zieht sich als roter Faden durch viele meiner Forschungsfragen. [...]
Zweig: Es geht um die gesellschaftlichen Folgen der Informatik, insbesondere um Interaktionen zwischen Menschen, vermittelt durch Software. Mein liebstes Beispiel dafür ist von 2016, dem Jahr der US-Präsidentschaftswahl. In Mazedonien grassierte damals die Jugendarbeitslosigkeit. Da kamen ein paar Teenager dahinter, Facebook-Nutzer mit politischen Texten auf ihre Webseiten zu locken. Mit Werbung auf diesen Webseiten ließ sich etwas verdienen. Das meiste Geld, so zeigte sich schnell, war mit Trump-Anhängern zu machen, die ließen sich schneller locken. Und so begannen mazedonische Teenager, auf Facebook schlecht über Hillary Clinton zu schreiben – ohne jedes politische Motiv. Das ist ein typisches emergentes Phänomen, wie wir das nennen. Eine an sich neutrale Technologie bringt zusammen mit einem psychologischen Effekt etwas Neues hervor. [...] Viele Leute glauben, die Technik sei jetzt ja so gut, da müsse man nur noch Daten reinschmeißen. Dazu kommt noch unsere Gutgläubigkeit. Ich sehe etwa derzeit viele Systeme im Personalbereich, bei denen man angeblich nur einen unstrukturierten Lebenslauf hochladen muss, und die Maschine schlägt dann passende Stellen vor. Absurd. [...]
In meinem neuen Buch teile ich KI-Systeme ein in vier Sorten. Die erste Sorte gibt auf unsere Fragen faktische Antworten, die sich auch auf einem anderen Weg berechnen lassen. Ein Beispiel wäre die predictive maintenance, die Reparaturvorhersage, wo eine KI etwa einen Motor belauscht. Sobald dessen Geräusche vom gewohnten Muster abweichen, alarmiert die KI eine Technikerin, damit die sich den Motor anschaut, bevor es zum Kolbenfresser kommt. Solchen Systemen können wir vertrauen, weil wir ihre Ergebnisse nachprüfen können. Die zweite Sorte macht statistische Vorhersagen. Die können wir zumindest im Nachhinein checken. So wie wir prüfen können, ob es richtig ist, einem Fahranfänger höhere Versicherungsprämien abzuknöpfen, anhand der Unfallstatistik. Maschinen finden in Datensätzen viel besser subtile Muster, als Menschen es tun, und können so bessere statistische Analysen machen. Liegt eine aber ständig daneben, werden wir das bemerken – kein Problem also. Hier können wir KI sogar mehr vertrauen als dem sprunghaften Menschen. [...]
Von nicht überprüfbaren Fragestellungen, das wäre die dritte Sorte, sollte man eine KI fernhalten. Zum Beispiel sollte eine KI in neuartigen Situationen, sei es eine Pandemie oder der Mauerfall, keine politischen Ratschläge erteilen. Diese wären weder zu dem Zeitpunkt noch später in ihrer Wirkung nachprüfbar. Und dann könnte es noch KI-Systeme geben, die Werturteile abgeben, auch denen sollten wir nicht trauen. Zweig: Ein Beispiel, zu dem ich gerade mit einem Philosophen geforscht habe: Wenn KI einen Text bewertet und sie fast dieselben Noten gibt wie menschliche Gutachter, darf man das dann der Maschine überlassen? [...] Nun, ich habe dafür einfach eine eigene KI entwickelt. Von 16 Klausuren habe ich acht vorher korrigiert und die KI damit trainiert. Die hat mir dann vorhergesagt, welche Noten ich den restlichen acht Klausuren geben werde. Der Vergleich zeigte: Die vorhergesagten Noten und meine lagen nur 0,3 auseinander. Dabei hatte ich der KI nur eine einzige Sache zu den verbleibenden acht Klausuren verraten. Raten Sie mal, welche. [...] Die Gesamtzahl der Seiten! Daran sieht man so gut: Es reicht nicht, dass die Maschine fantastisch ist in der Vorhersage, wenn diese auf falschen Kriterien fußt. Denn wüssten meine Studierenden, die KI bewertet nur die Länge der Arbeit, dann würden sie sich danach richten und das eigentliche Ziel der Klausur gar nicht erreichen. Nämlich zu lernen, komplexe Zusammenhänge in einem Text zusammenzufassen – und das kann eine Maschine eben nicht beurteilen. Noch nicht."