1. Was ist RAG? Einfach erklärt
Retrieval-Augmented Generation (RAG) ist eine Methode, die ein KI-Sprachmodell mit externem Wissen verbindet. Statt sich nur auf das zu verlassen, was das Modell im Training gelernt hat, durchsucht ein RAG-System zuerst Ihre Unternehmensdaten und generiert dann eine Antwort auf Basis der gefundenen Informationen.
Stellen Sie sich vor, Sie hätten einen brillanten neuen Mitarbeiter, der alles weiß, was je in einem Buch stand – aber nichts über Ihr Unternehmen. RAG ist die Methode, diesen Mitarbeiter mit Zugang zu Ihrem gesamten Firmenwissen auszustatten: Handbücher, Prozessdokumentationen, Kundenhistorien, Produktdaten, E-Mails, Meeting-Protokolle.
Das Ergebnis ist ein Knowledge Bot, der Fragen Ihrer Mitarbeiter oder Kunden beantwortet – nicht mit generischem KI-Wissen, sondern mit konkreten, verifizierbaren Informationen aus Ihren eigenen Systemen. Inklusive Quellenangabe, damit jede Antwort nachvollziehbar ist.
RAG wurde 2020 von Meta AI (damals Facebook Research) vorgestellt und hat sich seitdem zum Standard für unternehmensweite KI-Anwendungen entwickelt. Der Grund: Es ist günstiger, aktueller und transparenter als die Alternative (Fine-Tuning) – und liefert in den meisten Fällen bessere Ergebnisse.
2. RAG-Architektur im Detail
Ein RAG-System besteht aus zwei Hauptphasen: der Indexierung (einmalig + Updates) und der Abfrage (bei jeder Nutzeranfrage). Beide zusammen bilden eine Pipeline, die aus mehreren Komponenten besteht.
Phase 1: Indexierung
Datenextraktion
Dokumente werden aus Ihren Quellsystemen geladen – Confluence, SharePoint, Google Drive, PDFs, Datenbanken. Connectors extrahieren den Text und Metadaten (Autor, Datum, Kategorie).
Chunking
Lange Dokumente werden in kleinere, sinnvolle Abschnitte (Chunks) unterteilt. Die Chunk-Größe ist entscheidend: Zu kleine Chunks verlieren Kontext, zu große verwässern die Relevanz. Typisch: 500–1.500 Zeichen mit Überlappung.
Embedding
Jeder Chunk wird durch ein Embedding-Modell in einen mathematischen Vektor umgewandelt – eine Liste von Zahlen, die die semantische Bedeutung des Textes repräsentiert. Ähnliche Inhalte erhalten ähnliche Vektoren.
Speicherung
Die Vektoren werden zusammen mit dem Originaltext und Metadaten in einer Vektor-Datenbank gespeichert. Diese ermöglicht blitzschnelle Ähnlichkeitssuchen über Millionen von Einträgen.
Phase 2: Abfrage (zur Laufzeit)
Frage-Embedding
Die Nutzerfrage wird mit demselben Embedding-Modell in einen Vektor umgewandelt.
Semantische Suche
Die Vektor-Datenbank findet die Chunks, deren Vektoren dem Frage-Vektor am ähnlichsten sind. Das funktioniert semantisch: "Wie sind die Arbeitszeiten?" findet auch Chunks über "Öffnungszeiten" oder "Bürozeiten".
Re-Ranking
Die gefundenen Chunks werden durch ein zweites Modell nach Relevanz neu sortiert. Das verbessert die Qualität deutlich – ein Schritt, den viele einfache Implementierungen überspringen.
Antwort-Generierung
Die relevantesten Chunks werden zusammen mit der Nutzerfrage an das LLM (z.B. Claude oder Llama) übergeben. Das Modell generiert eine natürlichsprachliche Antwort basierend auf den gefundenen Informationen – mit Quellenangabe.
Dieser gesamte Prozess dauert typischerweise 1–3 Sekunden – von der Frage bis zur fertigen Antwort mit Quellenangabe. Für den Nutzer fühlt es sich an wie ein Chat mit einem Kollegen, der sofort die richtige Information parat hat.
3. Vektor-Datenbanken: Das Herzstück
Die Vektor-Datenbank ist die zentrale Komponente eines RAG-Systems. Sie speichert die Embeddings Ihrer Dokumente und ermöglicht die blitzschnelle semantische Suche. Die Wahl der richtigen Datenbank hat direkten Einfluss auf Performance, Kosten und Datenschutz.
| Datenbank | Typ | Self-Hosted | Am besten für |
|---|---|---|---|
| Qdrant | Open Source | Ja | DSGVO-sensible KMU, beste Performance |
| Pinecone | Cloud (Managed) | Nein | Schneller Start, kein Ops-Team nötig |
| Weaviate | Open Source | Ja | Hybride Suche (Vektor + Keyword) |
| ChromaDB | Open Source | Ja | Prototypen, kleinere Projekte |
| pgvector | PostgreSQL-Extension | Ja | Teams, die PostgreSQL bereits nutzen |
Unsere Empfehlung für KMU in Österreich: Für die meisten Projekte setzen wir auf Qdrant. Es ist Open Source, kann auf Ihren eigenen Servern laufen (ideal für DSGVO), bietet exzellente Performance und skaliert von wenigen hundert bis zu Millionen von Dokumenten.
Für schnelle Prototypen oder wenn kein eigenes Hosting gewünscht ist, nutzen wir Pinecone als Managed Service. Und wenn Sie bereits PostgreSQL im Einsatz haben, kann pgvector eine pragmatische Lösung sein, die keine zusätzliche Infrastruktur erfordert. Mehr dazu auf unserer Service-Seite Knowledge Bots & RAG.
4. Halluzinationen vermeiden
“Halluzination” bedeutet, dass ein KI-Modell eine Antwort erfindet, die plausibel klingt, aber falsch ist. Bei einem internen Knowledge Bot ist das inakzeptabel – falsche Informationen über Prozesse, Produkte oder Verträge können reale Schäden verursachen. RAG reduziert Halluzinationen drastisch, aber nur wenn es richtig implementiert wird.
7 Strategien gegen Halluzinationen
Quellenbasierte Antworten erzwingen
Das LLM erhält die strikte Anweisung, nur auf Basis der bereitgestellten Dokumente zu antworten. Findet es keine relevante Information, sagt es das ehrlich, statt zu raten.
Quellenangabe bei jeder Antwort
Jede Antwort enthält Links zu den Originaldokumenten. So können Nutzer die Information jederzeit verifizieren. Das schafft Vertrauen und macht Fehler sofort sichtbar.
Confidence Scoring
Das System bewertet, wie sicher es sich bei einer Antwort ist. Bei niedriger Konfidenz wird der Nutzer gewarnt oder an einen menschlichen Experten weitergeleitet.
Re-Ranking der Suchergebnisse
Ein zweites Modell bewertet die Relevanz der gefundenen Chunks, bevor sie ans LLM gehen. So werden irrelevante Treffer herausgefiltert, die zu falschen Antworten führen könnten.
Optimales Chunking
Chunks, die zu klein sind, verlieren Kontext. Chunks, die zu groß sind, verwässern die Relevanz. Die richtige Größe und Überlappung zu finden ist eine Kunst, die wir durch systematisches Testing optimieren.
Hybride Suche
Kombination aus semantischer Suche (versteht Bedeutung) und Keyword-Suche (findet exakte Begriffe). Besonders wichtig für Fachbegriffe, Produktnamen oder Bestellnummern, die semantisch schwer zu erfassen sind.
Feedback-Loop
Nutzer können Antworten als hilfreich oder falsch markieren. Diese Daten fließen in die Optimierung ein: Prompts werden angepasst, Chunking verbessert und problematische Dokumente identifiziert.
Mit diesen Maßnahmen erreichen unsere RAG-Systeme eine Antwortgenauigkeit von 90–98 % – abhängig von der Qualität der Quelldokumente. Die restlichen 2–10 % werden durch Quellenangaben transparent gemacht, sodass Nutzer Fehler selbst erkennen können.
5. Use Cases für KMU
RAG-Systeme sind vielseitig einsetzbar. Hier die häufigsten Anwendungsfälle, die wir bei KMU in Österreich implementieren:
Interner Knowledge Bot
Mitarbeiter stellen Fragen zu Prozessen, Richtlinien, Produkten oder Compliance-Themen – der Bot antwortet sofort aus Confluence, SharePoint oder Google Drive. Reduziert Einarbeitungszeiten neuer Mitarbeiter um bis zu 60 % und entlastet erfahrene Kollegen von wiederholten Fragen.
Beispiel: „Wie ist der Prozess für eine Kundenreklamation?" → Bot liefert den Prozess aus dem QM-Handbuch mit Link zum Originaldokument.
Kundenservice-Bot
Beantwortet Kundenfragen zu Produkten, Bestellungen, Rücksendungen oder Garantiebedingungen – 24/7, mehrsprachig und ohne Wartezeit. Eskaliert komplexe Anfragen automatisch an menschliche Mitarbeiter.
Beispiel: „Kann ich das Gerät auch mit 230V betreiben?" → Bot findet die Spezifikation im Produktdatenblatt und antwortet präzise.
Vertrags- und Compliance-Assistent
Durchsucht Verträge, AGBs, Datenschutzrichtlinien und gesetzliche Vorgaben. Beantwortet Fragen wie „Wie lange ist die Kündigungsfrist bei Lieferant X?" oder „Was sagt die DSGVO zu Datenaufbewahrungsfristen?"
Beispiel: „Welche Gewährleistungspflichten haben wir laut Rahmenvertrag mit Firma Y?" → Bot zitiert die relevante Vertragsklausel.
Technische Dokumentation
Entwickler, Techniker oder Support-Mitarbeiter finden sofort Antworten in API-Dokumentationen, Installationsanleitungen oder Fehlerbehebungs-Guides, statt stundenlang in Wikis zu suchen.
Beispiel: „Wie konfiguriere ich den OAuth-Flow für die REST-API?" → Bot erklärt den Prozess mit Code-Beispielen aus der Entwickler-Dokumentation.
HR und Onboarding
Neue Mitarbeiter fragen den Bot zu Urlaubsregelungen, Benefits, IT-Zugängen oder Unternehmenskultur. Entlastet die HR-Abteilung von repetitiven Fragen und beschleunigt das Onboarding erheblich.
Beispiel: „Wie beantrage ich Homeoffice?" → Bot erklärt den Prozess und verlinkt zum Antragsformular.
Vertriebsunterstützung
Sales-Teams nutzen den Bot, um schnell Produktinformationen, Preislisten, Wettbewerbsvergleiche oder vergangene Angebote zu finden – direkt im CRM oder per Slack/Teams.
Beispiel: „Was unterscheidet unser Produkt A von dem Wettbewerber Z?" → Bot erstellt einen Vergleich aus Produktdatenblatt und internem Battle Card.
6. RAG vs. Fine-Tuning: Was ist besser?
Neben RAG gibt es eine zweite Methode, um ein KI-Modell mit Firmenwissen auszustatten: Fine-Tuning. Dabei wird das Basismodell mit Ihren Daten nachtrainiert. Hier der Vergleich:
| Kriterium | RAG | Fine-Tuning |
|---|---|---|
| Aktualität | Immer aktuell (live-Zugriff) | Statisch (Trainings-Snapshot) |
| Quellenangabe | Ja, automatisch | Nein (Wissen in Gewichten) |
| Halluzinationsrisiko | Niedrig (quellenbasiert) | Mittel bis hoch |
| Implementierungszeit | 2–6 Wochen | 4–12 Wochen + Datenaufbereitung |
| Aktualisierung | Automatisch (neue Dokumente) | Erneutes Training nötig |
| Am besten für | Wissensdatenbanken, FAQ, Support | Spezifischer Schreibstil, Fachsprache |
Unsere Empfehlung: Für 95 % aller Anwendungsfälle in KMU ist RAG die bessere Wahl. Fine-Tuning empfehlen wir nur, wenn Sie einen sehr spezifischen Ausgabestil benötigen (z.B. juristische Formulierungen in Ihrem Hausstil) oder extrem spezialisierte Fachsprache, die das Basismodell nicht kennt. In vielen Fällen lässt sich auch das durch gutes Prompt Engineering lösen, ohne Fine-Tuning zu brauchen.
7. Implementierung Schritt für Schritt
So implementieren wir ein RAG-System bei AI Integration:
1–2 Tage
Datenquellen-Audit
Welche Daten haben Sie, wo liegen sie, wie sind sie strukturiert? Wir identifizieren die wichtigsten Quellen und bewerten die Datenqualität. Häufige Quellen: Confluence, SharePoint, Google Drive, Datenbanken, PDFs auf Netzlaufwerken.
1 Tag
Architektur-Design
Wahl des LLM (Claude, Gemini, Open Source), der Vektor-Datenbank, des Embedding-Modells und der Deployment-Strategie. DSGVO-Anforderungen fließen direkt in die Architekturentscheidungen ein.
3–5 Tage
Indexierung und Chunking-Optimierung
Ihre Dokumente werden indexiert. Wir testen verschiedene Chunking-Strategien und Embedding-Modelle, um die beste Suchqualität für Ihre spezifischen Inhalte zu finden.
3–5 Tage
Prototyp und Testing
Ein funktionierender Prototyp wird mit echten Fragen aus Ihrem Alltag getestet. Wir messen Antwortqualität, Geschwindigkeit und Halluzinationsrate und optimieren iterativ.
2–3 Tage
Channel-Integration
Der Bot wird in die gewünschten Kanäle integriert: Website-Widget, Microsoft Teams, Slack, WhatsApp oder eine Custom-Oberfläche. Rechte- und Zugriffskonzepte werden implementiert.
1 Tag + 4 Wochen Begleitung
Go-Live und Monitoring
Der Bot geht in den Produktivbetrieb. Wir richten Monitoring für Antwortqualität, Nutzung und Fehler ein. In den ersten 4 Wochen optimieren wir basierend auf echtem Nutzerfeedback.
8. DSGVO und Datenschutz
Ein RAG-System verarbeitet Ihr wertvollstes Gut: internes Firmenwissen. Datenschutz ist daher keine Option, sondern Pflichtprogramm. Die gute Nachricht: RAG lässt sich vollständig DSGVO-konform umsetzen.
LLM-Zugriff: API statt Training
Ihre Daten werden per API an das LLM geschickt – nicht für Training verwendet. Azure OpenAI und Anthropic Claude garantieren das vertraglich. Bei maximalen Anforderungen nutzen Sie ein Open-Source-Modell, das komplett lokal läuft.
Vektor-Datenbank: EU oder On-Premise
Open-Source-Datenbanken wie Qdrant oder Weaviate laufen auf Ihren eigenen Servern oder in EU-Rechenzentren. Keine Daten fließen an US-Anbieter – es sei denn, Sie entscheiden sich bewusst dafür.
Zugriffsrechte und Mandantenfähigkeit
Nicht jeder Mitarbeiter soll alle Dokumente sehen. Wir implementieren Zugriffskontrollen, die sicherstellen, dass der Bot nur Informationen liefert, die der jeweilige Nutzer auch sehen darf. Das funktioniert über Integration mit Ihrem bestehenden Rechtemanagement (Active Directory, Google Workspace).
Audit-Trail und Logging
Alle Anfragen und Antworten werden geloggt (anonymisiert, wenn gewünscht). So können Sie jederzeit nachvollziehen, welche Informationen der Bot herausgegeben hat – wichtig für Compliance-Audits und die kontinuierliche Qualitätsverbesserung.