Neue KI-Sprachmodelle werben damit, immer größere Mengen an Informationen verarbeiten zu können. Um das zu testen, wird gern der sogenannte Nadel-im-Heuhaufen-Test gemacht. Wir zeigen, wie er funktioniert und dass er bei längeren Texten dann doch versagt.
Von Katrin Liffers
Fast im Wochentakt erscheinen neue KI-Modelle, die sich gegenseitig an Größe, Schnelligkeit oder Präzision übertreffen wollen. Besonders häufig fällt dabei das Schlagwort Kontextfenster. Es beschreibt – grob gesagt – die Menge an Informationen, die ein Modell berücksichtigen kann. Vergleichbar ist das mit dem Arbeitsgedächtnis beim Menschen.
Die Größe dieses Fensters wird in Token angegeben. Während vor drei Jahren ein Kontextfenster von 16.000 Token als groß galt, versprechen neue Modelle von OpenAI oder Google inzwischen 200.000 bis 1.000.000 Token. Dabei entsteht leicht der Eindruck: Ganz gleich, ob ein Satz am Anfang oder am Ende eines Dokuments steht – das Modell verarbeitet ihn mit der gleichen Sorgfalt.
Der Nadel-im-Heuhaufen-Test
Genau das soll der Nadel-im-Heuhaufen-Test überprüfen. Die Idee: Man versteckt eine „Nadel“ – also eine eindeutige Information – in einem sehr langen Text („Heuhaufen“) und fragt das Modell danach. Kann es die Info zuverlässig wiedergeben, gilt das als Beweis, dass es mit langen Kontexten umgehen kann.
Wo der Test an seine Grenzen stößt
Das klingt zunächst plausibel. Doch unsere Erfahrungen mit langen Texten und neuere wissenschaftliche Untersuchungen zeigen: Dieser Test misst nur eine sehr einfache Fähigkeit – das Erkennen exakter Wortübereinstimmungen. Für solche Aufgaben würde aber ja meist sogar ein simpler Suchalgorithmus reichen.
In der Praxis aber erwarten wir von einer KI mehr: Da wollen wir zum Beispiel alle Textstellen finden, die sich mit einem bestimmten Thema befassen, oder wir wollen einen langen Text zusammenfassen lassen, ohne dass wichtige Inhalte verloren gehen. Und ob das möglich ist, belegt der Nadel-im-Heuhaufen-Test nicht.
Andere Tests, andere Ergebnisse
Tatsächlich zeigen neuere Studien, dass die Leistung vieler Modelle mit zunehmender Kontextlänge sinkt – und zwar deutlich vor dem eigentlichen Limit des Kontextfensters. Eine brandneue Untersuchung weist nach, dass die Modelle beim semantischen Suchen (also dem Erkennen inhaltlicher Zusammenhänge) weit schlechter abschneiden als beim reinen Wort-Matching. Eine andere Studie kommt zu dem Ergebnis, dass Sprachmodelle umso weniger zuverlässig zwischen relevanten und irrelevanten Inhalten unterscheiden können, je länger der Kontext wird.
Fazit
Der Nadel-im-Heuhaufen-Test liefert einen zwar einfachen, aber sehr eingeschränkten Blick auf die Fähigkeiten von KI-Modellen. Wer wirklich wissen will, wie gut sie mit langen Kontexten umgehen, muss ausführlichere Tests vornehmen – und sollte gegenüber vollmundigen Marketingversprechen skeptisch sein.

Neugierig geworden?
Wir von IMKIS lieben es, Entwicklungen rund um Kommunikation und Sprache zu durchleuchten – und geben dieses Wissen auch in Seminaren weiter. Vielleicht finden auch Sie etwas in unserem Portfolio?
UNSERE SEMINARE