RAG, Fine-Tuning oder beides?
Ein Leitfaden für Unternehmen
Das Dilemma mit den eigenen Daten
Ein Sprachmodell weiß viel über die Welt. Aber es weiß nichts über die interne Wissensdatenbank eines Unternehmens, die neueste Compliance-Richtlinie oder den Produktkatalog von letzter Woche. Ohne kontinuierlichen Zugang zu aktuellen Daten „erfinden" LLMs Antworten auf Basis ihrer Trainingsmuster [1]. Wer dieses Halluzinationsproblem lösen und LLMs mit eigenen Daten verbinden will, steht vor einer grundlegenden Entscheidung: Soll das Modell die Informationen zur Laufzeit aus externen Quellen abrufen (Retrieval-Augmented Generation, kurz RAG)? Oder soll es durch gezieltes Nachtraining auf unternehmenseigenen Daten spezialisiert werden (Fine-Tuning)?
Beide Ansätze adressieren das Problem, aber auf fundamental unterschiedliche Weise [1].
RAG: Der empfohlene Startpunkt
AWS, Oracle, IBM und Glean kommen zum gleichen Schluss: Für die meisten Enterprise-Anwendungen ist RAG der richtige Einstieg [1, 2, 3, 6]. Das Prinzip ist elegant: Bei jeder Nutzeranfrage durchsucht das System eine Wissensdatenbank per semantischer Suche, kombiniert die gefundenen Informationen mit der Originalanfrage und generiert eine kontextuell fundierte Antwort [1]. Das zugrunde liegende Modell bleibt dabei unverändert [4].
Die Gründe für diese Empfehlung sind handfest. RAG integriert neue Dokumente in Minuten statt Stunden oder Tagen [2]. Es erfordert keine Data Scientists und kein Spezialwissen in LoRA oder PEFT [2]. Und es liefert etwas, das Fine-Tuning prinzipbedingt nicht kann: Quellenreferenzen, die jede Antwort nachvollziehbar machen [2, 3].
Die akademische Forschung stützt diese Empfehlung mit harten Zahlen. Ovadia et al. zeigten, dass RAG unüberwachtes Fine-Tuning konsistent übertrifft, sowohl bei existierendem als auch bei völlig neuem Wissen. LLMs haben grundsätzlich Schwierigkeiten, neue Fakteninformationen durch unüberwachtes Fine-Tuning allein zu erwerben [10]. Lakatos et al. quantifizierten den Vorsprung über mehrere Modelle hinweg (GPT-J-6B, OPT-6.7B, LlaMA, LlaMA-2): 16% bessere ROUGE-Scores, 15% bessere BLEU-Scores und 53% höhere Kosinus-Ähnlichkeit. Einzig beim METEOR-Score schnitt Fine-Tuning 8% besser ab, was auf größere sprachliche Variation der Outputs hindeutet [11]. Bei selten vorkommendem Wissen fällt der Abstand noch größer aus. Soudani et al. untersuchten die Performanz bei wenig populären Fakten über zwölf Sprachmodelle verschiedener Größen und fanden, dass RAG Fine-Tuning hier mit deutlichem Vorsprung schlägt. Die Autoren schlagen zudem „Stimulus RAG" als effizientere Alternative vor, die kostspielige Fine-Tuning-Schritte ganz eliminiert [9].
Für Unternehmen mit sensiblen Daten kommt ein weiterer Vorteil hinzu. Bei RAG bleiben proprietäre Informationen in einer gesicherten Datenbank unter Kontrolle der Organisation, nicht eingebettet in Modellgewichten [3, 5]. Zugang lässt sich aktualisieren, entfernen oder einschränken, ohne das gesamte Modell neu zu trainieren. Besonders in regulierten Branchen ist das entscheidend [3]. Salemi und Zamani bestätigten den Datenschutzvorteil empirisch: RAG-basierte Personalisierung erzielte 14,92% Verbesserung gegenüber der Baseline, Parameter-Efficient Fine-Tuning nur 1,07%. In Kombination erreichten beide 15,98%, wobei RAG den Löwenanteil lieferte [12].
Wann Fine-Tuning sich lohnt
Heißt das, Fine-Tuning ist überflüssig? Keineswegs. Sobald es nicht um Fakten geht, sondern um Verhalten, dreht sich das Bild. Fine-Tuning trainiert vortrainierte Modelle auf kleineren, fokussierten Datensätzen weiter und bettet domänenspezifische Terminologie, Compliance-konformen Stil und konsistente Output-Formate direkt in die Modellgewichte ein [1, 3, 4, 6, 7]. Konkrete Anwendungsfälle sind: klinische Notizeninterpretation im Gesundheitswesen, Ergebnisanalysen im Finanzbereich und Vertragsrisiko-Identifikation im Rechtsbereich [6]. In diesen regulierten Branchen, wo branchenspezifisches Reasoning und konsistente Tonalität gefragt sind, ist Fine-Tuning der passende Ansatz [6, 7]. Auch bei High-Volume-Anwendungen spielt Fine-Tuning seine Stärke aus: Sub-Sekunden-Latenz statt der 1 bis 3 Sekunden, die RAG durch den Retrieval-Schritt verursacht [5]. Und anders als RAG verursacht Fine-Tuning keinen zusätzlichen Overhead zur Laufzeit [3].
Der Preis dafür ist allerdings hoch. Fine-Tuning ist rechenintensiv, erfordert leistungsstarke GPU-Infrastruktur und spezialisiertes Wissen [1, 2, 3]. Parameter-Efficient Fine-Tuning (PEFT) mit Methoden wie LoRA reduziert den Aufwand signifikant [1], stößt aber bei der Wissenseinspeisung an fundamentale Grenzen. Pletenev et al. untersuchten systematisch, wie viele neue Fakten ein LoRA-Adapter aufnehmen kann, bevor das Modell Schaden nimmt. Bis zu 500 unbekannte Fakten lernten die Modelle mit 100% Zuverlässigkeit. Darüber brach die Qualität ein. Bei 3.000 Fakten erreichte das Modell selbst nach 10 Trainingsepochen nur 48% Zuverlässigkeit. Der MMLU-Benchmark sank von 0,677 auf bis zu 0,554, und die Modelle verloren die Fähigkeit, Unsicherheit auszudrücken: Die Anzahl verweigerter Antworten fiel von über 3.000 auf nahe null. Gleichzeitig kollabierte die Diversität der Antworten dramatisch. Ähnliche Degradationsmuster zeigten sich bei Mistral-7B [15].
Das Kernprinzip lässt sich auf eine Formel bringen: RAG für Fakten, Fine-Tuning für Verhalten [1, 3, 6].
Der Hybrid-Ansatz: Mehr als die Summe der Teile?
Wenn RAG und Fine-Tuning komplementäre Stärken haben, liegt die Kombination nahe. Balaguer et al. von Microsoft Research zeigten in einer Fallstudie zur Agrardomäne, dass die Effekte tatsächlich kumulativ sind: Fine-Tuning steigerte die Genauigkeit um 6 Prozentpunkte, RAG lieferte weitere 5 Prozentpunkte. Bei geografischem Wissenstransfer verbesserte sich die Antwortähnlichkeit von 47% auf 72% [8].
Den bisher überzeugendsten Hybrid-Ansatz lieferte das RAFT-Framework (Retrieval Augmented Fine Tuning) der UC Berkeley. Die Idee: Das Modell wird nicht nur auf korrekten Dokumenten trainiert, sondern auch auf irrelevanten Distraktoren, und lernt Chain-of-Thought-Reasoning mit expliziten Zitaten. Auf dem HotpotQA-Benchmark erreichte RAFT 35,28%, verglichen mit 4,41% für den herkömmlichen Ansatz aus domänenspezifischem Fine-Tuning plus RAG [13].
Ein kontraintuitives Detail: Training mit ausschließlich relevanten Dokumenten war suboptimal. Erst die gelegentliche Exposition gegenüber irrelevanten Distraktoren verbesserte die Robustheit des Modells [13]. Chain-of-Thought-Reasoning allein trug 9,66 bis 14,93 Prozentpunkte zur Verbesserung bei [13].
Doch Hybrid ist nicht automatisch besser. Lakatos et al. fanden, dass die naive Kombination von fine-getunten Modellen mit RAG die Performanz sogar verschlechterte [11]. Die Erklärung liegt in der Implementierungsqualität: RAFT trainiert gezielt mit Distraktoren und strukturiertem Reasoning, während eine unstrukturierte Kombination die Modelle verwirren kann.
Auch bei der Halluzinationsbekämpfung zeigt sich der Wert gezielter Kombination. Wenn RAG-Systeme keine relevanten Informationen finden, neigen nachgeschaltete Modelle zur Halluzination [14]. Lee et al. entwickelten mit Finetune-RAG einen Ansatz, der Sprachmodelle explizit auf diese Situation trainiert, indem der Trainingsdatensatz reale Unvollkommenheiten im Retrieval simuliert. Das Ergebnis: 21,2% Verbesserung der faktischen Genauigkeit gegenüber dem Basismodell [14]. Einen Blick in die Zukunft bietet LAG (LoRA-Augmented Generation): Große Bibliotheken spezialisierter LoRA-Adapter werden zur Laufzeit dynamisch per Token ausgewählt und mit RAG kombiniert. In Experimenten mit 1.000 Wissens-Adaptern erreichten Fleshman und Van Durme damit 95,0% der theoretischen Optimalperformanz und übertrafen jeden Einzelansatz [17].
Die Entscheidung in der Praxis
Der Konsens über Anbieter und Forschung hinweg empfiehlt ein progressives Vorgehen in drei Stufen [2, 3, 5, 7]:
Stufe 1: Prompt Engineering. Testen, was das Basismodell mit guten Prompts bereits leisten kann.
Stufe 2: RAG hinzufügen. Wenn dem Modell Faktenwissen fehlt, eine Retrieval-Schicht aufsetzen. Neue Dokumente lassen sich in Minuten integrieren [2].
Stufe 3: Fine-Tuning bei Bedarf. Erst wenn RAG die richtigen Informationen liefert, aber Stil oder Reasoning nicht stimmen, wird gezieltes Fine-Tuning sinnvoll [3, 7].
Oracle schlägt für die Entscheidung sechs Schlüsselfragen vor: Benötigt die Anwendung aktuelle Daten? Arbeiten Sie in einer spezialisierten Branche? Ist Datenschutz kritisch? Brauchen Antworten einen spezifischen Ton? Sind Laufzeit-Ressourcen begrenzt? Haben Sie KI-Infrastruktur und ML-Talente? Je nach Antwort fällt die Wahl auf RAG, Fine-Tuning oder die Kombination [3].
Matillion weist dabei auf einen oft übersehenen Aspekt hin: Beide Ansätze haben versteckte Folgekosten, die sich im Enterprise-Maßstab multiplizieren [5]. Bei RAG summieren sich Vektordatenbank-Speicher, Embedding-Berechnung und die Skalierung der Retrieval-Infrastruktur. Bei Fine-Tuning entstehen laufende Kosten durch Modell-Versionierung, A/B-Testing-Infrastruktur, periodische Neutrainings-Zyklen und spezialisierte Talentakquise, die technische Schulden erzeugen [5]. Die Entscheidung zwischen RAG und Fine-Tuning ist deshalb nicht nur eine technische Frage, sondern reflektiert die organisatorische Datenreife, die verfügbare Expertise und die langfristigen Budgetprioritäten [3, 5].
Ein beruhigender Befund kommt aus der Industrieforschung von Capital One: Wer sich für Fine-Tuning innerhalb einer RAG-Pipeline entscheidet, muss sich über die Wahl der konkreten Strategie wenig Sorgen machen. Ob unabhängiges, gemeinsames oder Zwei-Phasen-Fine-Tuning, die Ergebnisse in Exact Match und F1-Score sind nahezu identisch. Die Empfehlung: Die Strategie nach Recheneffizienz und verfügbaren Ressourcen wählen, nicht nach erwarteter Performanz [16].
Fazit
Die Forschungslage 2024 bis 2026 zeichnet über 17 Quellen hinweg ein konsistentes Bild: RAG für dynamisches Wissen, Fine-Tuning für stabiles Verhalten, und die Kombination nur mit sorgfältiger Implementierung [1, 2, 3, 6, 11, 13]. Wer mit RAG startet, minimiert Kosten und Komplexität. Wer Fine-Tuning ergänzt, sollte wissen warum: für Stil und Ton, nicht als Wissensspeicher. Die effektivsten KI-Strategien orientieren sich am aktuellen Stand des Unternehmens und entwickeln sich mit den Anforderungen weiter [6].
Offene Fragen bleiben. Longitudinale Kostenvergleiche in realen Enterprise-Deployments fehlen. Die meisten Studien nutzen Modelle mit 7 bis 13 Milliarden Parametern; wie sich die Trade-offs bei Frontier-Modellen verschieben, ist kaum erforscht [11, 15]. Multimodale Szenarien mit Bildern, Audio oder Tabellen sind bislang praktisch unerforscht [11]. Und die Integration in agentenbasierte Systeme mit Multi-Step-Reasoning steht erst am Anfang. Mitrix sieht hier den nächsten Konvergenzpunkt: fine-getunete Modelle für Spezialaufgaben, RAG für Aktualität und Agenten für die Orchestrierung [7].
Aber die Grundregel für den Einstieg ist klar: Mit RAG starten, bei echtem Bedarf gezielt erweitern.