RAG ist tot. Schon wieder.
Alle paar Monate stirbt RAG (Retrieval Augmented Generation). Diesmal killt es das Kontextfenster. Zwei Millionen Token, alles rein, fertig. Wozu noch Vektordatenbanken, Chunking, Embedding-Modelle?
Klingt verlockend. Und für den Prototypen mit ein paar PDFs funktioniert es sogar.
Aber ich begleite Modernisierungsprogramme, in denen es nicht um ein paar 100 PDFs geht. Sondern um große, gewachsene Dokumentenlandschaften, regulatorische Anforderungen, Multi-Mandanten-Zugriff und Auditierbarkeit. Da ist "alles in den Kontext laden" ungefähr so realistisch wie "wir machen einfach Greenfield".
Die Debatte RAG vs. Long Context ist ein Scheingefecht. Sie stellt die falsche Frage. Nicht: Welche Technologie? Sondern: Was ist das Ziel? Welche Daten, welche Volumina, welche Compliance-Anforderungen, welche Antwortzeiten? Und wie sieht die Gesamtstrategie aus, in die das Muster eingebettet wird?
In meiner Arbeit mit Xavier zeigt sich: Die Unternehmen, die KI produktiv nutzen, haben nicht die beste RAG-Pipeline. Sie haben klare Kriterien, nach denen sie für jeden Anwendungsfall das passende Muster wählen. Manchmal Retrieval. Manchmal Long Context. Oft ein Hybrid. Aber immer auf Basis einer Bewertung, nicht eines Defaults.
Und während alle über den Tod von RAG diskutieren, passiert gerade etwas wirklich Interessantes: Google hat vor wenigen Tagen Gemini Embedding 2 veröffentlicht. Ein Modell, das Text, Bilder, Audio, Video und PDFs nativ in einen einzigen Vektorraum mappt. Kein Vorverarbeiten, kein Transkribieren, keine getrennten Pipelines pro Medientyp. Das war bisher die eigentliche Schwäche von RAG: Dokumente mussten aufwendig zerlegt und aufbereitet werden. Diese Hürde fällt gerade weg.
RAG ist nicht tot. RAG wird gerade erwachsen. Und wer immer noch glaubt, "RAG oder Long Context" sei die richtige Frage, sollte eher über seine Entscheidungsarchitektur nachdenken.
