Ich stehe morgens auf, setze mich an den Rechner und schicke einen Prompt ab. Dann gehe ich Kaffee machen.

Nicht weil der Prompt so dringend wäre. Sondern weil das Kontingent-Fenster mit dem ersten Prompt startet. Fünf Stunden lang kann ich reden, bis mein Kontingent aufgebraucht, dann ist Schluss, bis das Fenster sich zurücksetzt. Wer den ersten Prompt um sechs Uhr morgens losschickt, bekommt um elf Uhr ein neues Fenster. Also, Prompt losschicken und zwischen 10 und 12 eine KI Phase einplanen. Somit wären 2 Fenster geschickt genutzt.

Also: Erst der Prompt, dann der Kaffee.

Das ist die Realität, wenn man ein KI-Abonnement hat und ernsthaft damit arbeitet. Man plant seinen Tag um ein Zeitfenster, das man nicht selbst steuert. Und das ist nur der Anfang.

Dauert länger als üblich

Manchmal antwortet das Modell langsamer. Deutlich langsamer. Oben erscheint ein Hinweis: „Dauert länger als üblich.“ Mehr erfährt man erst einmal nicht.

Es fühlt sich an wie im Supermarkt an der Kasse. Man stellt sich irgendwo im Gewusel an. Meist ist unklar, warum so viel los ist. Blöder Zeitpunkt erwischt, oder es ist gerade nur eine Kasse besetzt. Man steht, man wartet, man schaut sich um.

Und dann kommt der Hinweis auf die Fast Lane. Wer das teurere Abonnement hat, darf vorbei. Kostet natürlich extra, wenn man sich das Anstehen ersparen will.

Manchmal ist es dann sogar so, dass die normalen Kassen schlicht gar nicht besetzt sind. Man wartet und wartet, und irgendwann bekommt man gesagt, dass da halt „unerwartete Kapazitätseinschränkungen“ vorliegen. Also die normale Kasse gar nicht zur Verfügung steht. Oder so viel wie: Der Kollege steht im Stau, Autobahn gesperrt, und niemand weiß, wann es weitergeht.

Auf der Statusseite des Anbieters kann man den Fortschritt verfolgen, in vier Stufen, die sich lesen wie ein Verkehrsfunk-Bericht: Investigating: wir machen uns mal auf den Weg. Identified: Unfallstelle gefunden. Monitoring: Hubschrauber kreist noch. Resolved: Stau auch wirklich aufgelöst. Wie lange das dauert? Steht da nicht. Man wartet eben.

Was bekommt man eigentlich?

Für das, was man bezahlt, ob zwanzig, hundert oder zweihundert Euro im Monat, wie viel bekommt man eigentlich? Wie viele Tokens stecken in diesem Kontingent? Wie viel Denkleistung wird pro Frage aufgewendet, wie viele Fragen passen ins Fenster, was kann das Modell im Hintergrund?

Man weiß es nicht. Und das steht auch so in den Nutzungsbedingungen: Der Anbieter kann das jederzeit ändern. Die Preise stehen auf der Webseite. Was man dafür bekommt, ändert sich je nach Lage.

Erst das Zahnrad, dann die Geduld

Bei einigen Modellen lässt sich inzwischen einstellen, wie viel Leistung sie in eine Antwort stecken sollen: niedriger Aufwand, normaler Aufwand, hoher Aufwand. Welche Stufe voreingestellt ist, entscheidet der Anbieter.

Das triggert bei mir denselben Reflex wie der vorausgewählte 20-Prozent-Tipp beim Bezahlen im Café: Wer weniger geben will, muss aktiv eingreifen, und beim nächsten Mal steht der Default wieder da. Eine kleine Voreinstellung mit großer Wirkung darauf, was an Rechenleistung gerade durch meinen Prompt fließt.

Ich gebe mir Mühe mit dem Prompt, drücke auf Absenden, und dann erscheint erst einmal: das Zahnrad. Zahnrad heißt, es dauert. Wie lange, verrät es nicht. Soll ich einen Kaffee holen? Kurz aus dem Fenster schauen? Eine Raucherpause einlegen (als Nichtraucherin schwierig)? Auf die Toilette? Die ganze Zeit überbrücke ich irgendwelche Pausen, weil das Ding mal eine Minute braucht, mal zwei, mal fünf, selbst bei einfachen Aufgaben. Wann es fertig ist, weiß ich vorher nie.

Spannender wird es bei Fehlermeldungen wie: „Ich konnte dir nicht abschließend antworten. Versuche es gleich noch einmal.“ Das Gefühl ist, als stünde mein Gegenüber mitten im Gespräch auf, ginge kurz vor die Tür und ließe mich mit einem „gleich“ zurück. Wann es zurückkommt, bleibt offen. Vielleicht steht auf der Statusseite, was „gleich“ heute bedeuten könnte.

Mich erinnert das an meine Kinder. „Essen ist fertig!“ — „Gleich!“ Und ich wusste genau, dass dieses gleich eher irgendwann war, so nach dem Level des App-Spiels halt.

Ob das alles meiner Gesundheit dient, ist die Frage. Fünf Kaffeepausen je Stunde sind jedenfalls medizinisch grenzwertig.

Der neue Kollege, der anders tickt

Besonders interessant wird es, wenn ein neues Modell kommt. Ein neues Opus, ein neues Sonnet. Auf dem Papier ist es besser: schneller, schlauer, leistungsfähiger. In der Praxis ist es erst einmal: anders.

Es ist, als hätte man einen neuen Kollegen eingestellt, der zwar grob das Profil des Vorgängers hat, aber anders tickt. Die Formulierungen ändern sich. Dinge, die gestern funktioniert haben, funktionieren heute nicht mehr. Der Ton ist anders. Die Prioritäten verschieben sich. Und man muss sich erst wieder darauf einstellen, wie dieses neue Gegenüber arbeitet.

Das wäre in Ordnung, wenn es ein klarer Fortschritt wäre. Aber neue Modelle werden nicht einfach schrittweise besser. Sie sind oft irgendwie anders. Schraubt der Anbieter an der einen Seite, fällt woanders etwas um. Plötzlich schickt es mich dauernd ins Bett. Oder es schreibt flüssiger, dafür hält es sich weniger an Anweisungen. Dieses typische KI-Irgendwie.

Und man hat keine Wahl. Das alte Modell wird oft nicht mehr angeboten. Der Vorgänger hat gekündigt. Der Neue ist da. Man muss damit arbeiten.

Wenn das Modell anfängt zu komprimieren

Wer länger mit einem Modell arbeitet, und damit meine ich keine Tage, sondern eine einzige Sitzung, die etwas umfangreicher ist, erlebt irgendwann den Moment, in dem das Modell mitteilt, dass es jetzt komprimiert. Kontext wird zusammengefasst, damit man weiterarbeiten kann.

Klingt fürsorglich. Aber was genau wurde komprimiert? Was ging verloren? Wurden wichtige Kontextinformationen mit eingedampft, die man eigentlich behalten wollte? Wurden Dinge mitkomprimiert, die man lieber vergessen hätte? Ist die Zusammenfassung, auf der das Modell jetzt weiterarbeitet, eine gute Zusammenfassung, oder eine, die Wesentliches verzerrt?

Man weiß es nicht. Man kann es nicht prüfen. Man kann nur weitermachen und hoffen, dass es passt.

Mit einem echten Kollegen kann man ein halbes Jahr zusammenarbeiten. Man baut einen gemeinsamen Wissensstand auf. Man weiß, was der andere weiß. Man hat ein Gefühl dafür, wo man steht.

Mit der KI plant man ständig: Wann fange ich einen neuen Chat an? Was nehme ich in den neuen Chat mit? Was muss ich wiederholen, was darf ich weglassen? Was geht verloren, wenn ich jetzt einen Schnitt mache, und was geht verloren, wenn ich keinen mache? Das ist mit der Zeit ganz schön anstrengend.

Die API als vermeintlicher Ausweg

Es gibt eine Alternative zum Abonnement: die API. Programmierschnittstelle, man zahlt pro Token, hat deutlich mehr Kontrolle. Man kann den Cache steuern, kann sagen, ob etwas dringend ist oder irgendwann erledigt werden soll, und Letzteres ist dann billiger. Man kann sogar festlegen, wie viel eine Anfrage kosten darf.

Ich nutze die API selten. Nicht weil sie schlecht wäre, sondern weil sie für meine Art zu arbeiten (diktieren, sortieren, denken, nachfragen) im Alltag unpraktisch ist. Das Abonnement ist der natürlichere Weg, wenn man im Gespräch mit dem Modell arbeitet statt es programmgesteuert aufzurufen.

Aber es ist aufschlussreich, sich anzuschauen, was ein Abonnement eigentlich wert ist. Eine Analyse von Morph hat die realen Token-Verbräuche eines Entwicklers über acht Monate dokumentiert.

10 Mrd.
Tokens, die ein Entwickler in acht Monaten verbraucht hat
> 15.000 $
wären über die API fällig gewesen
800 $
kostete dasselbe im Max-Abo (über 90 % Ersparnis)

Das klingt nach einem Schnäppchen. Aber die Rechnung hat eine Kehrseite: Wer über die API arbeitet, sieht exakt, wie viel verbraucht wird. Wer ein Abonnement hat, sieht nichts. Man bekommt ein Fenster, eine Antwort und keine Ahnung, wie viel Aufwand tatsächlich reingeflossen ist.

Wie ist das Wetter in Texas?

Und damit sind wir bei der Frage, die keiner stellt, die aber über allem hängt: Wie sorgfältig hat das Modell gerade gearbeitet?

Anthropic, der Anbieter von Claude, investiert 50 Milliarden Dollar in Rechenzentren in den USA. Die ersten Standorte: Texas und New York. Für Texas spricht der niedrige Strompreis, die schnelle Genehmigung und die Nähe zu erneuerbaren Energien. 2026 wird die Solarstromerzeugung in Texas erstmals die Kohleverstromung überholen. 900 Solarprojekte sind in Entwicklung. Die Kapazität des texanischen Stromnetzes hat sich in vier Jahren verdreifacht.

Das klingt zukunftsweisend. Aber Solar hat eine Eigenschaft, die man in Deutschland gut kennt: Es ist wetterabhängig. Was passiert bei Dunkelflaute: kein Wind, keine Sonne? Was passiert, wenn das texanische Stromnetz unter Last gerät, wie es in den letzten Jahren mehrfach passiert ist? Anthropic hat sich verpflichtet, bei Netzengpässen die Leistung seiner Rechenzentren zu drosseln. Das steht so in ihren eigenen Zusagen.

Und dann erscheint auf dem Bildschirm: „Unerwartete Kapazitätseinschränkungen.“ Man soll es später noch einmal versuchen. Oder man wartet ein paar Stunden. Oder die Antworten werden kürzer, knapper, oberflächlicher, ohne dass es angekündigt wird.

Im März 2026 fiel Claude weltweit mehrfach aus. Tausende Nutzer standen vor verschlossener Tür. In den Wochen davor und danach: wiederholte Kapazitätsengpässe, Warteschlangen, gedrosselte Antworten. Die offiziellen Statusmeldungen sprachen von „unexpected capacity limitations“. Was genau im Hintergrund passiert ist, ob Stromprobleme, Lastspitzen, Modellwechsel oder etwas anderes, erfährt man als Nutzer nicht.

Man weiß nicht, ob die Antwort, die man gerade bekommen hat, das Ergebnis voller Rechenkapazität ist. Oder ob das Rechenzentrum gerade unter Sparlast läuft, weil in Texas die Sonne hinter den Wolken steckt. Ob das Modell sorgfältig gearbeitet hat, oder ob es heute einfach nicht so gut aufgelegt ist, weil irgendwo zwischen Abilene und San Antonio ein Transformator warm geworden ist.

Das Ergebnis sieht immer gleich professionell aus. Flüssig formuliert, sauber strukturiert, überzeugend im Ton. Was dahinter steckt, sorgfältige Arbeit oder reduzierte Kapazität, sieht man nicht.