Schlagwort: Test

Unsere Blutgruppen kennen sie alle!

Wie oft passiert es Dialog-KI, bei einfachen Wissensfragen falsche Antworten zu liefern? Wir haben das bei den bekanntesten KI-Chatbots anhand von 100 zeitlosen Fakten geprüft.

Von Stefan Brunn

Die Ergebnisse unseres Tests im Überblick.

Welche Dialog-KI macht die wenigsten Fehler, wenn man nach zeitlosen Fakten fragt? Das wollten wir wissen und haben deshalb einen kleinen Vergleich auf der Grundlage von 100 Fragen angestellt – solchen wie „Wie viele Rippenpaare hat der Mensch“ oder „Wer überflog als erstes den Nordpol?“ Unsere Fragen aus unterschiedlichen Wissensbereichen der Kultur- und Naturwissenschaften haben wir ausschließlich aus einem Buch geschöpft, es heißt: „Das große Humboldt-Quizbuch“. Alle 100 Fragen dokumentieren wir hier zusammen mit unserem Prompt. Unser Vergleich hält sicherlich keinen wissenschaftlichen Ansprüchen stand. Dazu hätten wir, unter anderem, jede Frage ganz oft stellen müssen. Die KI-Chatbots liefern nämlich nicht jedes Mal dasselbe Ergebnis, sondern die Ergebnisse können durchaus variieren. Trotzdem erwartet natürlich, wer diese KI nutzt, jedes Mal ein richtiges Ergebnis.

Ziel unseres Experiments war zu messen, wie viele falsche Antworten bei einfachen Wissensfragen gegeben werden. Geprüft haben wir sechs Dialog-KI: Bing, Chat-GPT (Version 4), Gemini, Llama (Version 3), Mistral und You.com. Keine Maschine lieferte alle Antworten fehlerfrei. Am Ende waren die Unterschiede aber überraschend gering: Der Sieger Llama geht mit nur 8 falschen Antworten vom Platz. Knapp dahinter folgen dann schon ChatGPT (9 Fehler) und You.Com (10). Man sieht also insgesamt, dass alle KIs bei einfachen Wissensfragen ganz gut abliefern. Vor allem bei feststehenden Fakten liefern alle ab: So nennen alle zuverlässig die vier Hauptblutgruppen des Menschen, wissen, wer „Die Buddenbrooks“ geschrieben hat und dass ein Tarockspiel 78 Karten enthält.

Bei einigen Fragen hatte man aber fast den Eindruck, hier wurden die KIs richtig kreativ: Hinter dem Begriff „Achtender“ zum Beispiel vermutete Llama einen „Jäger, der acht Hirsche erlegt hat“. Gemini wiederum nannte „Ein acht Jahre alter Rothirsch“ als Antwort. Große Schwierigkeiten hatten die KIs auch dabei, ein bestimmtes Straßenschild richtig zu benennen. Ein blaues rundes Schild mit rotem Rand und Querbalken steht natürlich für eingeschränktes Halteverbot. Die Antworten reichten hier allerdings von „Autobahn“ über „Einfahrt verboten“ bis hin zu „Vorfahrt achten“.

Eine einzige Frage konnte keine KI beantworten, nämlich: „Wie nennen Typografen Buchstaben aus einer fremden Schrift, die sich eingeschlichen haben?“ Hier reichten die Antworten von „Glyphen“ über „Fremdkörper“ bis hin zu „Bastarde“. Alles falsch! Die richtige Antwort wäre gewesen: „Zwiebelfische“. Dieses Versagen ist zugleich eine Spur, die wir bei künftigen Vergleichen weiterverfolgen wollen: Je spezieller eine Frage ist (also je weniger Trainingsdaten vorhanden), desto weniger wahrscheinlich die richtige Antwort. Fragt man nämlich andersherum: Was ist ein „Zwiebelfisch“?, kriegen alle die richtige Antwort sofort hin.

Am fehlerlosen Korrektorat scheitert die KI noch

Textverarbeitungsprogramme schaffen es bis heute nicht einwandfrei, alle Rechtschreib-Fehler zu eliminieren. Funktioniert das mithilfe Künstlicher Intelligenz? Wir haben fünf Maschinen getestet. Die Ergebnisse waren teils gut, teils schlecht. Kein Korrektorat war fehlerfrei.

Von Stefan Brunn

Kann KI schaffen, was keinem Redaktions- oder Textverarbeitungssystem in den letzten Jahrzehnten gelungen ist, nämlich Texte auf Knopfdruck fehlerfrei zu machen? Wir haben das an einem kurzen Text mit vielen Fehlern verschiedener Art getestet:

Die von einem Hersteller von Navigationssystemen beauftragte, Befragung stellt z.B. auch fest, welche Emotionen am häufigsten auf treten , wenn sich jemand verfährt: das nahe liegende Gefühl der Frustation stand dabei erwartungsgemäss mit 75Prozent vorn, gefolgt von Ärger (36 Prozent) und Angst (19 Prozent).

In diesen wenigen Zeilen steckt ja einiges an Fehlern: Groß- und Kleinschreibung, Flüchtigkeitsfehler, Interpunktion, alte und neue Rechtschreibung … Wie kriegt das die KI in den Griff? Den Text gaben wir mit dem immer gleichen Befehl (Prompt) an fünf große Sprachmodelle: Bard, Bing, ChatGPT, Llama und You.com.

Ergebnis: Keine Maschine beseitigt wirklich alle Fehler. Allerdings schaffen es ChatGPT (3.5) und Bing, nur einen einzigen minimalen Fehler übrig zu lassen: das fehlende Leerzeichen bei z. B. Die anderen sind teils recht übergriffig, fassen etwa „von einem“ einfach zu „vom“ zusammen, machen aus dem Wort „Prozent“ das %-Zeichen oder lassen den Satzbeginn nach dem Doppelpunkt mit einem kleinen „d“ stehen, wo es groß sein muss.

Es kann aber nun nicht mehr lange dauern, bis sich eine App darauf spezialisiert, auch kleinste Fehler noch auszumerzen. Dann wird ein Versprechen wahr, dass Verlage ihrer Belegschaft schon vor 30 Jahren gegeben haben, als sie die Korrektor:innen entließen: Das Korrektorat macht jetzt die EDV.

Und falls für jemanden unser Prompt fürs Korrektorat interessant sein sollte, hier ist er (und er lässt sich bestimmt noch verbessern/spezifizieren):
Bitte erledige eine Aufgabe für mich: Korrektorat eines journalistischen Textes. Berücksichtige dabei folgende Punkte:

• Inhalt und Satzbau sollen nicht verändert werden, also bitte KEINE Redigatur, sondern nur Korrektur, also das Ausmerzen von Fehlern.
• Zu den Fehlern gehören auch Groß- und Kleinschreibung, Getrennt- und Zusammenschreibung, Kommasetzung, Kleinigkeiten wie doppelt gesetzte Leerzeichen, falsche Leerzeichen und ähnliches.
• Grundlage Deiner Korrekturen sollen die Rechtschreibregeln in Deutschland sein. Im Zweifel die Rechtschreibung, die der DUDEN empfiehlt. Bitte die neuen Regeln (nach der Rechtschreibreform verwenden). Nicht die Schweizer Regeln verwenden.
• Bitte achte auch auf Einheitlichkeit bei den Schreibweisen. Wenn Du zum Beispiel eine Maßeinheit einmal ausschreibst, dann immer.
• Bitte setze ggf. bei Abkürzungen und zwischen Ziffern und Maß- und Mengeneinheiten ein geschütztes Leerzeichen.