Wie oft passiert es Dialog-KI, bei einfachen Wissensfragen falsche Antworten zu liefern? Wir haben das bei den bekanntesten KI-Chatbots anhand von 100 zeitlosen Fakten geprüft.
Von Stefan Brunn
Welche Dialog-KI macht die wenigsten Fehler, wenn man nach zeitlosen Fakten fragt? Das wollten wir wissen und haben deshalb einen kleinen Vergleich auf der Grundlage von 100 Fragen angestellt – solchen wie „Wie viele Rippenpaare hat der Mensch“ oder „Wer überflog als erstes den Nordpol?“ Unsere Fragen aus unterschiedlichen Wissensbereichen der Kultur- und Naturwissenschaften haben wir ausschließlich aus einem Buch geschöpft, es heißt: „Das große Humboldt-Quizbuch“. Alle 100 Fragen dokumentieren wir hier zusammen mit unserem Prompt. Unser Vergleich hält sicherlich keinen wissenschaftlichen Ansprüchen stand. Dazu hätten wir, unter anderem, jede Frage ganz oft stellen müssen. Die KI-Chatbots liefern nämlich nicht jedes Mal dasselbe Ergebnis, sondern die Ergebnisse können durchaus variieren. Trotzdem erwartet natürlich, wer diese KI nutzt, jedes Mal ein richtiges Ergebnis.
Ziel unseres Experiments war zu messen, wie viele falsche Antworten bei einfachen Wissensfragen gegeben werden. Geprüft haben wir sechs Dialog-KI: Bing, Chat-GPT (Version 4), Gemini, Llama (Version 3), Mistral und You.com. Keine Maschine lieferte alle Antworten fehlerfrei. Am Ende waren die Unterschiede aber überraschend gering: Der Sieger Llama geht mit nur 8 falschen Antworten vom Platz. Knapp dahinter folgen dann schon ChatGPT (9 Fehler) und You.Com (10). Man sieht also insgesamt, dass alle KIs bei einfachen Wissensfragen ganz gut abliefern. Vor allem bei feststehenden Fakten liefern alle ab: So nennen alle zuverlässig die vier Hauptblutgruppen des Menschen, wissen, wer „Die Buddenbrooks“ geschrieben hat und dass ein Tarockspiel 78 Karten enthält.
Bei einigen Fragen hatte man aber fast den Eindruck, hier wurden die KIs richtig kreativ: Hinter dem Begriff „Achtender“ zum Beispiel vermutete Llama einen „Jäger, der acht Hirsche erlegt hat“. Gemini wiederum nannte „Ein acht Jahre alter Rothirsch“ als Antwort. Große Schwierigkeiten hatten die KIs auch dabei, ein bestimmtes Straßenschild richtig zu benennen. Ein blaues rundes Schild mit rotem Rand und Querbalken steht natürlich für eingeschränktes Halteverbot. Die Antworten reichten hier allerdings von „Autobahn“ über „Einfahrt verboten“ bis hin zu „Vorfahrt achten“.
Eine einzige Frage konnte keine KI beantworten, nämlich: „Wie nennen Typografen Buchstaben aus einer fremden Schrift, die sich eingeschlichen haben?“ Hier reichten die Antworten von „Glyphen“ über „Fremdkörper“ bis hin zu „Bastarde“. Alles falsch! Die richtige Antwort wäre gewesen: „Zwiebelfische“. Dieses Versagen ist zugleich eine Spur, die wir bei künftigen Vergleichen weiterverfolgen wollen: Je spezieller eine Frage ist (also je weniger Trainingsdaten vorhanden), desto weniger wahrscheinlich die richtige Antwort. Fragt man nämlich andersherum: Was ist ein „Zwiebelfisch“?, kriegen alle die richtige Antwort sofort hin.