Machbarkeitsstudie zu RAG und MCP
Offline LLms in der Versicherungspraxis
Wie lassen sich Large Language Models lokal, sicher und datenschutzkonform in Versicherungsprozesse integrieren?
Gemeinsam mit der VOLKSWOHL BUND Lebensversicherung a.G. hat die HWS Gruppe diese Frage in einer Machbarkeitsstudie untersucht – mit klaren Ergebnissen, praxisnahen Prototypen und echten Use Cases.
Die vorgestellten Praxisbeispiele sind DSGVO-konform und unter Berücksichtung des EU-AI-Act entwickelt
Lokale LLMs sicher nutzen – von der Machbarkeit zur Praxis
gemeinsam mit der Volkswohl Bund Lebensversicherung A.G.
Machbarkeitsstudie als PDF downloaden
Erhalten Sie diese Studie als detaillierte Bericht, um auch später noch darauf zurückzugreifen.
Lokale LLMs in der praxis
Auf dem Messekongress IT für Versicherungen 2025 in Leipzig zeigten Glenn Galea (HWS Gruppe) und Kerstin Kräuter (VOLKSWOHL BUND), wie RAG- und MCP-Technologien bereits heute internen Wissenstransfer beschleunigen, Arbeitsabläufe unterstützen und höchste Compliance-Anforderungen erfüllen.
Im Mittelpunkt stehen konkrete Anwendungsbeispiele wie der Wissenschaftsbot „FragNorbert“ sowie der Incident-Management-Assistent „DOLORES“ – zwei Tools, die zeigen, wie lokal gehostete LLMs echten Mehrwert im operativen Alltag schaffen.
Kundenfeedback: "Künstliche Intelligenz entfaltet ihren echten Nutzen erst dann, wenn sie sicher, kontrollierbar und praxisnah eingesetzt wird. Mit lokal gehosteten LLMs, RAG und MCP schaffen wir Lösungen, die Informationen effizient an Mitarbeitende weiterleiten und sie dadurch spürbar entlasten – bei maximaler Datenschutz- und Compliance-Sicherheit. Die HWS Gruppe hat uns auf diesem Weg partnerschaftlich unterstützt!“Kerstin Kräuter, Abteilungsleiterin User und Clientmanagement Volkswohl Bund Versicherungen)
Ausgangssituation und Zielsetzung
Die Volkswohl Bund Versicherung ist seit Januar 2025 Kunde der HWS Gruppe. Die Zusammenarbeit ist durch eine partnerschaftliche und vertrauensvolle Kundenbeziehung geprägt.
Im Rahmen dieser Partnerschaft wurde eine Machbarkeitsstudie zu Offline-LLMs durchgeführt. Ziel war die Entwicklung von lokal betriebenen Agentic AI Systemen auf Basis von Large Language Models (LLMs) zur Unterstützung von Problemstellungen im Wissensmanagement und Know-how-Transfer innerhalb des Unternehmens, sowie zur Unterstützung des Personals während eines Dora-Incidents.
Die Systeme sollen Mitarbeitende im Tagesgeschäft entlasten, indem sie relevante Informationen, Prozesse und Handlungsempfehlungen kontextbasiert bereitstellen – sowohl im Bereich des internen Wissensmanagements als auch im Incident Management.
Zentrale Zielsetzung war es, das vorhandene Wissen für Mitarbeitende effizient und sicher zugänglich zu machen, indem eine sichere, abgeschottete Umgebung geschaffen wird, die den Anforderungen an DSGVO und dem EU AI Act stand, hält.
Eine Internetanbindung ist für das System nur notwendig, um Daten aus relevanten Schnittstellen von Ticketmanagement- oder Dokumentationssystemen zu laden.
Problemstellung
Konkret gab es zwei Problemstellungen, die es zu lösen galt:
- Praxisbeispiel
Das Volkswohl Bund-Intranet enthält eine Vielzahl an internen Dokumenten in Confluence, unter anderem zu Themen wie:
- Kinderbetreuung (Kita)
- Bike-Leasing
- Reisekostenabrechnungen
- Mitarbeiterhandbuch
Die vorhandene Verschlagwortung und Suchfunktion basieren auf einer Schlüsselwortsuche, welche Nutzern die passenden Informationen nicht zuverlässig bereitstellen kann. Ergebnisse hängen stark von der konkreten Eingabe des Suchworts ab, was die Auffindbarkeit relevanter Inhalte erheblich erschwert. Ein Mitarbeiter müsste also bereits wissen, was genau er sucht, aber genau weil dieses Wissen fehlt, begibt sich der Mitarbeiter auf die Suche.
Diese Herausforderung wird durch den Einsatz eines Offline-LLM mit Retrieval-Augmented-Generation (RAG) gelöst werden.
- Praxisbeispiel
Major Incidents können für Mitarbeitende eine hohe Drucksituation sein. In solchen Situationen kann es herausfordernd sein, an alle nötigen Schritte zu denken und korrekt der Situation entsprechend zu handeln. Hier könnte eine AI unterstützen und dem Nutzer bei der Suche von Tickets helfen, Handlungsempfehlungen geben oder auch E-Mail-Entwürfe erarbeiten die bereits alle nötigen Ansprechpartner berücksichtigen, auch wenn diese sich vielleicht Vorwoche geändert haben.
Diese Herausforderungen wird durch den Einsatz eines Offline-LLM mit Model Context Protocol (MCP) gelöst werden.
Risikoabschätzung
Zu Beginn der Studie erfolgte eine Risikobewertung der erdachten Praxisbeispiele anhand des EU-AI-Act, mit den Kategorien: Unvertretbar, Hohes Risiko, Geringes Risiko, Minimales Risiko. Dieses Risikostufenmodell wird durch den EU AI Act beschrieben um Risiken einordnen und abwägen zu können (siehe Abb1. Risikomodell auf Basis des EU AI Act)
Unser geplantes System ist ausschließlich im Kundennetzwerk erreichbar, und der Zugriff weiter mittels Azure OAuth beschränkt. Konversationen zwischen Nutzern und LLMs können nur von eben diesen Nutzern wieder eingesehen werden. Die Schnittstellen an alle externen Systeme nutzen die von den Anbietern bereitgestellten APIs, und verwenden SSL/TLS Verschlüsselung. Des Weiteren hat die Anwendung nur lesenden Zugriff und kann keine Daten abändern, welche ausschließlich zu Auskunftszwecken verwendet werden, und keine finalen Entscheidungen nach sich ziehen.
Anhand dieser Merkmale wurde das Risiko als “Gering” eingestuft.
Denn geplant ist ein Chatbot der Auskünfte geben kann über eine Dokumentensuche im Intranet oder durch die Suche von Tickets in Jira. Die Agentic AI gibt einem Nutzer Vorschläge, unterstützt und informiert, handelt aber nicht eigenständig.
Technische Umsetzung
Systemarchitektur
Die technische Lösung basiert auf folgenden Komponenten (siehe Abb.2 Beispiel Architektur des Kundensystems auf Basis von Qwen3 als lokales LLM Modell) :
- Frontend: Eigens entwickeltes React-Frontend, über das die Nutzer mit dem System interagieren.
- Backend: Google Agent Development Kit (ADK) basiertes Agentic AI System
- Vektordatenbank: Milvus Vektor Datenbank zum Speichern und Auslesen der generierten Vektoren auf Basis der Wissensdatenbak-Einträge
- Langfuse: System zur Versionierung und Verwaltung von Anweisungen für die LLMs, sowie zum Protokollieren von Unterhaltungen in der Entwicklungsversion
- Datenquellen: Diverse Anbindungen an Datenquellen von Atlassian Produkten
Ablauf der Interaktion
Für die Studie wurden zwei agentische Chat Systeme entwickelt, welche beide über die gleiche Weboberfläche erreichbar sind.
Der erste Agent kann auf die in der Milvus Vektor Datebank hinterlegten Dokumente aus Confluence zugreifen und bietet eine freundliche Chat Interaktion. Falls ein Nutzer zu gewissen Geschäftsrelevanten Informationen mehr erfahren möchte, delegiert ein Hauptagent die Aufrufe an einen spezialisierten Agenten, dessen Aufgabe darin besteht, die Nutzerfrage auf relevante Bereiche herunterzubrechen, und dazu passende Blöcke aus der Datenbank anzufragen. Diese werden ein weiteres Mal nach Relevanz gefiltert, wobei das Zuschneiden auf relevante Textbereiche erlaubt ist. Die Selektion an Textbausteinen wird nun wieder dem Hauptagenten für die Generierung der finalen Antwort übergeben.
Die Aufteilung der Aufgabenbereiche auf Unteragenten, sowie das Zuschneiden der gefunden Textbausteine, erlaubt die Anweisungen je Agent auf das wesentliche zu reduzieren und den Kontext klein zu halten. Des Weiteren erlaubt die Schnittstelle zwischen den Agenten im Fall von Fehlern oder fehlenden Suchergebnissen auf automatische Antworten zurückzugreifen. Dies verhindert, dass das LLM sich unpassend verhält oder sich Fakten ausdenkt. (siehe Abb. 3 Sequenzdiagramm zur Beantwortung von Wissensfragen.)
Ein weiterer Agent ermöglicht das Abfragen von Informationen aus Jira Issues, welches wie folgt weiterverwendet werden kann. Hat der Nutzer Interesse an einem Dora Report, basierend auf den Jira Daten, wird an einen Spezialagenten übergeben, welcher so instruiert ist, eine Liste an Einträgen in ein Formular, basierend auf detaillierte Beschreibung je Eintrag zu machen, welcher dann in Form einer Excel Datei ausgegeben wird. Dies ermöglicht im Fall eines DORA relevanten Sicherheitsvorfalls schnelleres Handeln durch automatisch generierte Reports.
Sollte das Jira Issue nicht bereits eine Handlungsempfehlung enthalten, kann dies mit einem weiteren spezialisierten Agenten generiert werden. Eine Liste an Beispiel Fällen mit bekannten Handlungsempfehlungen wurde in Form eines Entscheidungsbaums durchsuchbar gemacht. (siehe Abb.4 Sequenzdiagramm zur Generierung von Handlungsempfehlungen auf Basis eines Entscheidungsbaums)
Dieser ermöglicht dem LLM relevante alte Jira Issues, durch Beantwortung strukturierter Fragen, zu erhalten. Eine Liste sehr ähnlicher Fälle wird nun mit dem aktuellen Verglichen, um die Handlungsempfehlung auszusprechen.
Da die Anwendungen unterschiedliche Zielnutzer haben, wurden die Features auf zwei Chatbots getrennt, wobei das Zusammenlegen in einen Chatbot natürlich auch möglich wäre.
Wesentliche Merkmale
Das System interagiert nur zu Lese Zwecken mit externen Schnittstellen wie Jira, und kann keine sensitiven Daten durch andere Schnittstellen an Dritte übertragen. Dies erfüllt Datenschutz, Informationssicherheit und regulatorische Anforderungen.
RAG und MCP im Einsatz
RAG (Retrieval Augmented Generation)
RAG bildet die Grundlage für die intelligente Dokumentensuche und die semantische Aufbereitung interner Informationen. Es ermöglicht dem System, relevante Textpassagen aus der Wissensbasis zu extrahieren und diese zur präzisen Antwortgenerierung zu nutzen.
Anwendungsfälle:
- Dokumentensuche im Intranet
- Chatbots zur internen Wissensvermittlung
- Text- und Report-Generatoren für interne Zwecke
MCP (Model Context Protocol)
MCP ist ein offener Standardprotokoll-Ansatz und definiert wie ein LLM eine externe Schnittstelle für Funktionsaufrufe oder Datenquellen zu verwenden hat. Hierbei werden Metadaten, Struktur von Ein- und Ausgabeparametern, sowie LLM Nutzungs-Anweisungen bereitgestellt. Dies erleichtert die Anbindung an externe Schnittstellen, ohne diese für jede Anwendung neu definieren zu müssen. Dies fördert Modularität, Wiederverwendbarkeit sowie Sicherheit bei KI-Anwendungen.
In dem für die Studie verwendeten Agentic AI Framework Google ADK sind Funktionsaufrufe an externe APIs sowie die Delegierung zwischen Agenten ähnlich zu verstehen. Hierbei sind jedoch komplexere Logikschichten zwischen LLM und externen Diensten notwendig, um die Multi-Agent-Koordination und komplexere Abläufe abzubilden.
Neben existierenden APIs, welche sehr leicht zu adaptieren sind, können auch komplexere Anwendungen von LLMs verwendbar gemacht werden, solange diesen programmatischen Zugriff erlauben.
Beispiele für Datenquellen:
- Wetter-Daten
- Aktien Verläufe
- Nachrichten
- Ticket Systeme
- CRM
Komplexere Anwendungen:
- interne Datenbanken
- Filesysteme
- Desktopanwendungen
Praxisbeispiele in der Versicherungspraxis
Ergebnisse und Nutzen
Praxisbeispiel 1 – „Frag Norbert“
Aus dem bereits zu Beginn dieser Studie beschriebenem Anwendungsfall entstand der Chatbot „Frag Norbert“.
Inspiriert von einem langjährigen Mitarbeiter der Volkswohl Bund Lebensversicherung A.G., der für seine hilfsbereite und kompetente Art bekannt ist, wurde mit „FragNorbert“ ein digitaler Zwilling geschaffen:
FragNorbert ist:
• 24/7 verfügbar
• auf Basis einer RAG-Lösung
• zugänglich für alle Mitarbeitenden
• sicher im Lokalen Betrieb
Nutzen: Schnelle, präzise Auskünfte zu internen Themen ohne Suchwort-Abhängigkeit.
Praxisbeispiel 2 – „Dolores Bot“
Das zweite Praxisbeispiel, wie ebenso bereits beschrieben, führte zur Entwicklung des Dolores Bots, in Anlehnung an DORA (Digital Operational Resilience Act). Er unterstützt beim MAJOR INCIDENT / SI-Management.
Funktionen von DOLORES:
• Erstellung von Ticketzusammenfassungen
• Automatisiertes Ausfüllen eines DORA Reports
• Generieren von Handlungsempfehlungen auf Basis bestehender Ticket
• Automatisches Zusammenfassen und Weiterleiten an zuständige Verantwortliche
• Vorbereitung von Outlook-Terminen und Rundmails
Ziel: Unterstützung bei der Kategorisierung und Einhaltung von Incident-Prozessen.
Benefits für den Kunden
Die Machbarkeitsstudie wurde erfolgreich abgeschlossen und am 28. November 2025 im Rahmen des Versicherungskongress IT für Versicherung in Leipzig von der HWS Gruppe und der Volkswohl Bund Versicherung präsentiert.
Erzielte Benefits:
- Sicherer Wissenszugriff
- Entlastung von Mitarbeitenden (z. B. Norbert)
- Schnellere Informationsbearbeitung
- Effizientere Auffindbarkeit interner Informationen
- Optimierte Incident-Bearbeitung
- Regulatorische Konformität durch Local-LLM-Betrieb
Fazit
Die Machbarkeitsstudie zeigt, dass der Einsatz von RAG- und MCP-basierten Local-LLMs im Versicherungsumfeld technisch und organisatorisch realistisch und vorteilhaft ist.
Die Kombination aus RAG und MCP für Wissensbereitstellung und Multi-Agenten-Orchestrierung ermöglicht skalierbare, sichere und datenschutzkonforme KI-Lösungen, die nahtlos in bestehende Infrastrukturen integriert werden können.
Der Volkswohlbund hat damit einen zukunftsfähigen Weg eingeschlagen, um internes Wissen intelligent verfügbar zu machen und operative Prozesse nachhaltig zu unterstützen.
Ihr Ansprechpartner für dieses Projekt:
Glenn Galea
- Chief Sales Officer -
- Vertriebsleitung -
USe Case Downloaden und Zeit sparen
Erhalten Sie diesen Use Case als detaillierte Bericht bequem per Mail, um auch später noch darauf zurückzugreifen.
Füllen Sie dazu einfach unser Kontaktformular aus.
Wir gehen verantwortungsbewusst mit Ihren Daten um.
Einige Beispiele für zufriedene HWS-Kunden:
Sie Möchten Mehr über unseren User Helpdesk erfahren?
Mehr Infos zum HWS User Helpdesk finden sie hier: