Stellen Sie sich vor, Sie nehmen alles, was in Ihrem Firmennetzwerk liegt, Dokumentationen, Gebrauchsanweisungen, Projektberichte, Protokolle, Verträge, E-Mails, und kippen es in einen großen Trichter. Oben rein, unten kommt Wissen raus. So ungefähr wird RAG verkauft.

RAG steht für Retrieval Augmented Generation. Die Idee: Man speist eigene Unternehmensdaten in ein System ein, und wenn man dann eine Frage stellt, sucht die KI in diesen Daten nach relevanten Passagen, fügt sie dem Kontext hinzu und formuliert daraus eine Antwort. Klingt elegant. Und in bestimmten Fällen funktioniert es auch.

In vielen Fällen ist die Hoffnung allerdings deutlich höher als der Nutzen.

Was da eigentlich reinkommt

Meistens ist es so: Da landen Dokumente, die zehn Jahre alt sind. Gebrauchsanweisungen, die mal jemand geschrieben hat. Dokumentationen aus der letzten Migration. Protokolle, bei denen niemand mehr weiß, ob die Entscheidungen darin noch gelten oder längst überholt sind.

Damals, als diese Dokumente geschrieben wurden, hat niemand daran gedacht, dass eine KI sie irgendwann in Schnipsel zerlegen und daraus Antworten bauen soll. Und genau das ist das Problem. Denn RAG-Systeme zerlegen Dokumente in sogenannte Chunks: kleine Textblöcke, die einzeln durchsuchbar und verarbeitbar sind. Die Qualität dieser Schnipsel bestimmt die Qualität der Antwort. Und diese Qualität hängt davon ab, wie das Dokument ursprünglich strukturiert war.

Ein aktueller Forschungsaufsatz zu genau diesem Thema, Chunking-Strategien für Unternehmensdokumente, bringt es auf den Punkt: Die Fähigkeit von RAG, gute Ergebnisse zu liefern, hängt fundamental von der Qualität des Zerlegens in Schnipsel ab. Und genau dieses Zerlegen ist der am meisten übersehene Aspekt im gesamten RAG-Aufbau, mühsam und somit teuer.

Kein Dokument in Ihrem Firmennetzwerk wurde für diesen Zweck geschrieben. Das ist, als würde man einen Brief aus den 1990er Jahren in einen Scanner legen und erwarten, dass die Texterkennungssoftware auch die Handnotizen am Rand versteht.

Das Versionsproblem

Es kommt etwas dazu, das die Sache richtig ungemütlich macht: Versionen.

In den meisten Unternehmen ist die Historie von Unterlagen nicht sauber gepflegt. Dokumente werden kopiert, umbenannt, in anderen Ordnern abgelegt. Die Version von 2019 liegt neben der von 2023, und manchmal liegt die aktuelle Version in einem anderen Verzeichnis als dort, wo man suchen würde.

Wenn jetzt ein RAG-System alle diese Dokumente gleichzeitig durchsucht, passiert Folgendes: Es findet Passagen aus der alten Version und Passagen aus der neuen. Es weiß nicht, welche aktuell ist. Es baut aus beiden eine Antwort. Und diese Antwort kann in sich widersprüchlich sein, ohne dass man das auf den ersten Blick merkt, weil die Formulierung flüssig und überzeugend klingt.

Die Forschung bestätigt das: RAG-Systeme bewerten nicht, ob die gefundenen Informationen zueinander passen oder ob sie überhaupt relevant für die gestellte Frage sind. Sie sammeln ein, was ähnlich klingt, und der Sprachgenerator baut daraus etwas, das gut aussieht. Ob dahinter eine konsistente Faktenlage steht oder ein Gemisch aus veralteten und aktuellen Informationen, bleibt unsichtbar.

Zu wenig oder zu viel

Und dann ist da noch die Frage der Dosierung. Ein RAG-System sucht auf Basis einer Frage nach passenden Schnipseln und gibt diese als Kontext an das Sprachmodell weiter. Wie viele Schnipsel es durchsucht und weitergibt, hängt von der Konfiguration ab und von den Tokens, die dafür zur Verfügung stehen.

Zu wenig Tokens, und das System durchsucht nur einen Bruchteil des vorhandenen Materials. Es findet vielleicht drei Passagen, die oberflächlich passen, aber genau die eine relevante Stelle wird übersehen, weil sie in einem Dokument steckt, das die Suche nicht erreicht hat.

Zu viele Tokens, und das System stopft den Kontext voll mit allem, was irgendwie ähnlich klingt. Dann haben wir den generischen Brei: viel Material, wenig Fokus, und die Gefahr, dass alte und neue Versionen desselben Dokuments nebeneinander liegen, ohne dass das Modell den Widerspruch bemerkt.

In beiden Fällen sieht die Antwort professionell aus. Und in beiden Fällen kann sie falsch sein.

Warum einfach reinschaufeln nicht reicht

Die Grundannahme hinter vielen RAG-Projekten ist: Wir haben viel Wissen, wir machen es der KI zugänglich, und dann wird es schon nützlich sein. Das klingt nachvollziehbar. Aber es übersieht etwas Grundsätzliches.

Wissen ist nicht dasselbe wie Daten.

Daten sind das, was in den Dateien steht. Wissen ist das, was jemand daraus ableiten kann: im Kontext, mit Erfahrung, mit einem Verständnis davon, was zusammengehört und was nicht.

Ein RAG-System hat dieses Verständnis nicht. Es findet Passagen, die textlich ähnlich sind. Es versteht nicht, dass Passage A und Passage B zwar ähnliche Wörter verwenden, aber aus völlig unterschiedlichen Kontexten stammen. Es versteht nicht, dass ein Dokument überholt ist. Es versteht nicht, dass eine Entscheidung von 2019 durch eine Entscheidung von 2022 aufgehoben wurde, wenn diese Information nicht explizit im Text steht.

56 %
Genauigkeit klassischer RAG-Systeme bei unternehmenstypischen Fragen (Diffbot KG-LM Benchmark, 2023)
90 %+
GraphRAG-Implementierungen bei schemaorientierten Fragen (FalkorDB, 2025)
3,4×
GraphRAG schlägt klassisches Vektor-RAG im Durchschnitt der getesteten Aufgaben

Ein Benchmark von Diffbot hat 2023 gezeigt, dass klassische RAG-Systeme auf Basis reiner Textsuche bei unternehmenstypischen Fragestellungen eine Genauigkeit von rund 56 Prozent erreichen. Bei Fragen, die Zusammenhänge über mehrere Dokumente hinweg erfordern, sinkt die Treffsicherheit weiter. Das ist ein Münzwurf mit leichtem Vorteil.

Was oft besser funktioniert

In den 90er Jahren entstanden Expertensysteme, insbesondere als Gegenpol zu den damaligen Neuronalen Netzen, die als Blackbox undurchdringlich waren. Die Idee war dieselbe wie heute: Wissen verfügbar machen, das in den Köpfen einzelner Experten steckt. Nur war der Prozess damals komplett manuell. Man setzte sich mit dem Experten zusammen, stellte Fragen, versuchte sein implizites Wissen herauszubekommen, übersetzte es in Regeln und pflegte diese in ein System ein. Das war unglaublich aufwändig. Und genau deshalb sind viele dieser Systeme nie über das Pilotstadium hinausgekommen.

Geblieben ist das Ziel. Neu ist der Weg dorthin. Mit Sprachmodellen lassen sich heute unstrukturierte Texte, Notizen, Protokolle und Gesprächsmitschriften nehmen und daraus Zusammenhänge extrahieren. Nicht als Textschnipsel, die per Ähnlichkeit gefunden werden. Sondern als Beziehungen: Wer steht womit in Verbindung? Welche Entscheidung hängt von welcher Voraussetzung ab? Welche Regel gilt unter welchen Bedingungen?

Das sind graph-basierte Systeme, im aktuellen Sprachgebrauch GraphRAG. Statt Textstücke zu sammeln, die ähnlich klingen, bilden sie Strukturen ab: Knoten und Verbindungen, Entitäten und Beziehungen. Das Ergebnis ist kein Brei aus gefundenen Passagen, sondern ein Netz aus nachvollziehbaren Zusammenhängen.

Die Forschung zeigt, dass graph-basierte Ansätze bei komplexeren Fragestellungen, solchen, die Verbindungen über mehrere Quellen hinweg erfordern, deutlich bessere Ergebnisse liefern als reine Textsuche. In manchen Tests liegt die Genauigkeit drei- bis viermal höher als bei klassischem RAG. Nicht weil die Technologie magisch wäre, sondern weil Struktur etwas leistet, was Ähnlichkeitssuche nicht kann: Sie bildet Beziehungen ab.

Für mich ist das die eigentliche Revolution. Nicht, dass man jetzt mit einer KI reden kann. Sondern dass sich die mühsamste Arbeit der Wissensstrukturierung, die früher Jahre dauerte und an einzelnen Experten hing, heute mit Sprachmodellen unterstützen lässt. Das unstrukturierte Durcheinander im Firmennetzwerk in ein geordnetes Regelwerk zu überführen, das nachvollziehbar, prüfbar und aktualisierbar ist: das ist der Quantensprung. Und nicht das Reinschaufeln alter PDFs in einen Trichter.

Was das für Ihr Unternehmen bedeutet

Wenn Ihnen jemand ein RAG-System anbietet und sagt, man könne einfach alles Vorhandene einspeisen und dann intelligente Antworten bekommen: dann ist das technisch möglich. Ob die Antworten belastbar sind, ist eine andere Frage.

Bevor Sie Firmenwissen in eine KI geben, lohnt sich eine andere Frage: Wie gut ist dieses Wissen eigentlich aufbereitet? Gibt es aktuelle Versionen? Sind veraltete Dokumente als solche gekennzeichnet? Ist überhaupt klar, was das offizielle, gültige Wissen ist, und was Altlasten sind?

Wenn die Antwort darauf unbequem ausfällt, ist das kein Argument gegen KI. Es ist ein Argument dafür, erst die Grundlage in Ordnung zu bringen. Denn kein noch so intelligentes System baut aus einem ungeordneten Fundament belastbare Ergebnisse. Das gilt für RAG genauso wie für alles andere in der Wertschöpfung.