Tokens & Kontextfenster: Was KI im Hintergrund tut

Stellen Sie sich vor, Sie gehen mit einem Dreijährigen wandern. Der Dreijährige hat eine Tüte Gummibärchen. Und eine Frage: Sind wir endlich da?

Die Antwort „Noch drei Stunden“ ist für ein Kind in diesem Alter dasselbe wie „noch dreißig Minuten“. Es hat kein belastbares Modell davon, wie weit das Ziel entfernt ist. Es setzt einen Fuß vor den anderen, isst Gummibärchen und hofft, dass es irgendwann aufhört.

So ungefähr arbeitet auch eine KI. Sie setzt einen Schritt vor den anderen, verbraucht ihr Budget und hofft, dass es reicht. Und Sie stehen daneben, im Nebel: Sie sehen die Antwort, aber nicht, wie weit der Gipfel war, wie viel Energie geflossen ist und ob am Ende noch Gummibärchen in der Tüte waren.

Eine Währung, die Sie nie sehen

Wenn Sie einer KI eine Frage stellen, zahlen Sie in einer Währung, die Sie nie zu sehen bekommen: Tokens. Ein Energiebudget für jede Frage, jeden Kontext, jede Antwort. Mehr davon heißt mehr Raum zum Recherchieren und Abwägen, weniger heißt schneller und oberflächlicher.

Das Ergebnis sieht in beiden Fällen ordentlich aus. Die Sprache flüssig, die Struktur klar. Der Unterschied liegt in der Tiefe, und genau die bleibt verborgen.

Ein Mensch, der weiß, dass seine Tüte bis zum Gipfel reichen muss, teilt sich ein. Er spart, nimmt leichteres Gepäck, stimmt seine Kräfte auf die Strecke ab. Er hat ein Bild davon, wie weit es noch ist.

Eine KI hat dieses Bild nicht. Sie verfolgt kein Ziel, sie investiert Aufwand. Länger arbeiten ist schlicht teurer. Sie hört auf, wenn die Gummibärchen alle sind.

50 Meter vor dem Gipfel

Das eigene Kind hätte man auf den letzten 50 Metern vielleicht mit gutem Zureden hochbekommen. „Schau mal, da oben ist es!“ Und irgendwie wären die letzten Schritte gegangen, weil das Kind versteht, dass es gleich geschafft ist.

Die KI versteht das nicht. Sind die Tokens aufgebraucht, dreht sie ab. Egal ob 50 Meter vor dem Gipfel oder 500. Es gibt kein „gleich geschafft“, weil es kein Konzept von „geschafft“ gibt. Sie kann ihre Arbeit in Schritte aufteilen, das steckt in der Transformer-Architektur. Aber strategisch priorisieren, „hier investiere ich mehr, dort weniger, weil ich weiß, worauf es ankommt“, das leistet sie nicht.

Und darum ist so schwer einzuschätzen, was eine Aufgabe kostet. Wie viel Energie der Berg vor Ihnen braucht, lässt sich aus Erfahrung grob schätzen, aber vorher wirklich wissen tut man es selten. Ob die KI sich heute Mühe gibt oder nur das Nötigste tut, dafür fehlt Ihnen der Einblick.

Sie bricht nicht ab, weil sie fertig ist, sondern weil die Gummibärchen alle sind.

Das Bibliotheks-Problem

Stellen Sie sich vor, Sie schicken jemanden in eine Bibliothek und bitten ihn, alles zu einem Thema zusammenzutragen. Er kommt zurück mit einem sauber geschriebenen Bericht. Liest sich prima.

Aber hat er das erste Regal überflogen und aus drei Büchern etwas zusammengeschrieben? Oder systematisch geprüft, welche Bücher es wirklich gibt, die relevanten ausgewählt und gründlich durchgearbeitet?

Sie wissen es nicht. Beide Berichte sehen gleich aus.

Genau das passiert bei KI-Modellen. Manche gehen transparent damit um, wie viel Kontext sie noch verarbeiten, man sieht sozusagen den Pegelstand der Tüte. Bei anderen hat man das Gefühl, man könne endlos weiterreden. Was im Hintergrund geschieht, bleibt offen: Wird komprimiert? Zusammengefasst? Werden ältere Teile des Gesprächs leise vergessen? Die Anbieter wollen Ihnen schnell etwas Vorzeigbares liefern. Wie viel Recherche wirklich dahintersteckt, dafür haben Sie keinen Hebel.

Der vollgestopfte Rucksack

Viele lösen das, indem sie einfach die Ein-Kilo-Tüte mitnehmen. In der KI-Welt heißt das Kontextfenster: wie viel Information man der KI auf einmal mitgibt, Fragen, Hintergrund, Dokumente, alles zusammen.

Die Idee klingt naheliegend: großer Rucksack, dann passt alles rein. Aber wie im echten Leben: Wenn man alles fett reinstopft, erinnert man sich später an das, was ganz zu Beginn schön einsortiert wurde, und an das, was zuletzt reinkam. Was in der Mitte liegt, der dunkle Wirrwarrhaufen im Kellerabteil, ist weg.

U-Kurve

Genauigkeit am Anfang und Ende hoch, in der Mitte langer Texte deutlich niedriger („Lost in the Middle", 2024)

18 / 18

getestete Spitzenmodelle verlieren mit wachsender Eingabelänge an Qualität (Chroma, 2025)

Forscher um Stanford und die UC Berkeley haben das 2024 systematisch gezeigt. Ihre Studie „Lost in the Middle“ beschreibt eine U-förmige Aufmerksamkeitskurve: Informationen am Anfang und Ende langer Texte werden zuverlässig verarbeitet, in der Mitte fällt die Trefferquote deutlich ab.

Die schiere Größe eines Kontextfensters sagt also wenig darüber, wie gut die KI mit dem Inhalt arbeitet. Es ist der Unterschied zwischen einem großen und einem organisierten Lager. Nur in einem davon findet man wieder, was man sucht. Und das ist kein Einzelfall: Eine Untersuchung von Chroma an 18 Spitzenmodellen aus dem Jahr 2025 fand bei jedem einzelnen einen Qualitätsverlust, je länger die Eingabe wurde.

Wenn mitten in der Arbeit Schluss ist

Besonders elegant ist es, wenn die KI mitten in der Arbeit aufhört. Man ist im Flow, hat Kontext aufgebaut, ist am spannenden Punkt, und dann: Kontingent erschöpft, kommen Sie in fünf Stunden wieder.

Unangenehm ist daran nicht nur die Unterbrechung. Man kann vorher kaum einschätzen, ob das Budget reicht, und hinterher kaum nachvollziehen, ob die Qualität darunter gelitten hat, weil die Tüte fast leer war.

Was das für Unternehmen bedeutet

Wenn Sie ein KI-Tool einführen oder bewerten, zählt nicht nur: Kann es das? Sondern: Wie gründlich macht es das?

Das billigste Modell liefert die tiefste Analyse selten. Das schnellste nimmt sich die Zeit zum Nachdenken selten. Und das mit dem größten Kontextfenster vergisst trotzdem die Mitte. Wer KI für Entscheidungen nutzt, sollte das wissen, weil sonst die Erwartung nicht zum Budget passt.

Denn die KI verfolgt kein Ziel, keinen Plan, kein Bild davon, was „fertig“ heißt. Sie produziert das statistisch nächste Wort, und das kann beeindruckend aussehen, ohne dass eine Absicht dahintersteht.

Der Gipfel bleibt im Nebel. Aber wer weiß, dass da Nebel ist, plant anders: Er unterscheidet ein gutes Ergebnis von einem, das nur gut aussieht. Das ist die eigentliche Kompetenz.

Tokens, Kontextfenster und was die KI im Hintergrund wirklich tut