3 Min. Lesezeit

Speech2FHIR: Wie Sprach-KI echte, interoperable Patientendaten schafft

Speech2FHIR: Wie Sprach-KI echte, interoperable Patientendaten schafft

Warum Sprach-KI in der Pflege mehr können muss als transkribieren

 

KI-gestützte Dokumentation gilt als einer der großen Hoffnungsträger im Gesundheitswesen. Doch die entscheidende Frage lautet nicht: Kann KI zuhören? Sondern: Kann sie aus einem Gespräch belastbare, strukturierte und interoperable Daten erzeugen? 

Die Idee klingt bestechend einfach: Eine Pflegekraft spricht mit einer Patientin oder einem Patienten. Die KI hört zu, erkennt die relevanten Informationen und überführt sie automatisch in die richtige Stelle der Pflegedokumentation. Weniger Tippen. Weniger Nacharbeit. Weniger Medienbrüche. Mehr Zeit für Versorgung.

Doch zwischen einer guten Idee und einer im Klinikalltag tragfähigen Lösung liegt ein entscheidender Unterschied. Denn medizinische und pflegerische Dokumentation besteht nicht aus hübschen Gesprächszusammenfassungen. Sie muss vollständig, nachvollziehbar, prüfbar und strukturiert sein. Vor allem muss sie dort weiterverarbeitet werden können, wo Versorgung tatsächlich stattfindet: im klinischen Arbeitsplatzsystem, im KIS, im FHIR-basierten Datenraum und künftig auch in sektorenübergreifenden Versorgungsprozessen.

Genau an diesem Punkt setzte die DMEA-Präsentation „From Conversations to FHIR Questionnaire Responses“ von Dr. Thomas Hartkens und Mubeen Ahmed Soomro an. Im eingebundenen Video zeigen sie nicht nur, was Sprach-KI in der Dokumentation leisten kann, sondern vor allem, wie man ihre Qualität messbar macht. Grundlage war ein konkreter Use Case: Aus normalen Pflege-Patienten-Gesprächen sollte eine KI eine strukturierte FHIR QuestionnaireResponse erzeugen – also kein Freitextprotokoll, sondern eine standardisierte Antwortstruktur zu einem umfangreichen FHIR-Anamnesebogen.

 

 

Der Markt ist in Bewegung – aber Hype reicht nicht

Der Zeitpunkt könnte kaum passender sein. KI-gestützte Dokumentation ist längst kein Randthema mehr. Große Technologieanbieter und spezialisierte Start-ups investieren massiv in sogenannte Ambient-Documentation- und Voice-AI-Lösungen. Reuters berichtete 2025 über eine Finanzierungsrunde von 250 Millionen US-Dollar für das Unternehmen, das KI zur Erstellung medizinischer Dokumentation aus Arzt-Patienten-Gesprächen nutzt.

Auch politisch ist die Richtung eindeutig. Das Bundesgesundheitsministerium formuliert in seiner Digitalisierungsstrategie das Ziel, dass KI-gestützte Dokumentation in der Gesundheits- und Pflegeversorgung zum Standard werden soll; mehr als 70 Prozent der Einrichtungen sollen sie 2028 aktiv nutzen. Gleichzeitig wird ausdrücklich die Interoperabilität von Dokumentationen über syntaktisch und semantisch interoperable Datenformate betont. Auf europäischer Ebene setzt der European Health Data Space den Rahmen für einen sicheren Austausch und die Wiederverwendung elektronischer Gesundheitsdaten über Grenzen hinweg.

Die Marktlage ist damit klar: Sprach-KI kommt. Die offene Frage ist nur, in welcher Qualität – und mit welchem strukturellen Fundament.

Denn wer im Gesundheitswesen nur Sprache in Text umwandelt, löst erst die erste Hälfte des Problems. Speech-to-Text ist hilfreich. Aber es bleibt häufig unstrukturierter Text. Für moderne Versorgung braucht es mehr: Speech-to-FHIR.

 

Das eigentliche Ziel: nicht Text, sondern verwertbare Daten

FHIR ist dabei kein technisches Detail, sondern der entscheidende Unterschied zwischen digitaler Ablage und digital nutzbarer Versorgung. Die FHIR-Ressource QuestionnaireResponse beschreibt strukturierte Antworten auf definierte Fragebögen und kann vollständige oder teilweise Antworten zu einem Questionnaire abbilden. Sie wird unter anderem für Anamnesen, Assessments, Aufnahmeformulare und andere strukturierte Erhebungen eingesetzt.

Genau hier wird der Use Case aus der Präsentation spannend. nursIT arbeitet mit einer konsequent FHIR-basierten Pflegedokumentation. In der Untersuchung sollte ein KI-Modell nicht bloß ein Gespräch zusammenfassen, sondern einen sehr umfangreichen FHIR-Fragebogen mit mehr als 160 Items korrekt befüllen. Die KI musste also relevante Informationen aus einem natürlichen Gespräch erkennen, den passenden Feldern zuordnen, Antwortoptionen korrekt nutzen und zugleich vermeiden, Informationen zu erfinden, die im Gespräch gar nicht vorkamen.

Das ist die eigentliche Herausforderung klinischer KI: Sie muss nicht nur sprachlich überzeugend sein. Sie muss dokumentationsfähig sein.

Der Test: ein normales Gespräch, ein langer FHIR-Fragebogen

In der Präsentation wurde ein konkreter Use Case untersucht: Aus einem normalen Gespräch zwischen Pflegekraft und Patient sollte ein Large Language Model eine strukturierte FHIR QuestionnaireResponse erzeugen.

Die Aufgabe war bewusst anspruchsvoll. Der verwendete Anamnesebogen umfasste mehr als 160 Items. Die Gespräche liefen nicht entlang eines Formulars ab, sondern als natürliche Unterhaltung. Die KI musste also selbst erkennen, welche Information relevant ist, zu welchem Feld sie gehört und wann ein Feld leer bleiben muss.

Bewertet wurde nicht nach Bauchgefühl. Für jedes Interview wurde eine manuelle Ground Truth erstellt und anschließend mit der KI-Antwort verglichen. Dabei ging es nicht nur um richtige oder falsche Antworten, sondern auch um fehlende Einträge und Halluzinationen – also Angaben, die im Gespräch gar nicht vorkamen. Gerade in der klinischen Dokumentation ist dieser Unterschied entscheidend. Eine ausgelassene Information ist problematisch. Eine erfundene Information kann es erst recht sein.

Was die Ergebnisse zeigen

Verglichen wurden dedizierte kommerzielle KI-Lösungen, GPT-4-Varianten sowie Open-Source-Modelle wie LLaMA und Mistral. Zusätzlich testete das Team verschiedene Prompting-Strategien und untersuchte, wie stabil die Modelle bei identischem Input reagieren.

Ein Ergebnis fällt besonders auf: Spezialisierte Anbieter waren im untersuchten Szenario nicht automatisch besser als allgemeine Sprachmodelle oder offene Modelle. Ihr Vorteil kann in Integration, Support und Produktreife liegen – bei der reinen Befüllung der FHIR-Struktur zeigte sich aber kein einfacher Zusammenhang nach dem Muster: spezialisiertes Produkt gleich bessere Antwort.

Ebenso wichtig: Open-Source-Modelle erwiesen sich als realistische Alternative. Das ist für den deutschen Gesundheitsmarkt mehr als eine technische Randnotiz. Betrieb in einer deutschen Cloud, Datenschutz, Kontrolle über Infrastruktur und mögliche On-Premise-Szenarien sind für viele Einrichtungen entscheidende Kriterien.

Die Präsentation macht damit einen nüchternen Punkt: Die Frage ist nicht mehr nur, ob KI solche Aufgaben grundsätzlich lösen kann. Die größere Herausforderung liegt darin, sie sauber in klinische Workflows einzubinden.

Von Speech-to-Text zu Speech-to-FHIR

Für nursIT ist genau diese Perspektive zentral. Mit careIT Voice bietet nursIT einen Ansatz, der über klassische Spracheingabe hinausgeht: Dokumentation soll nicht nur transkribiert, sondern direkt in FHIR-basierte Strukturen überführt werden. careIT Voice ist entsprechend eine sprachbasierte FHIR-Dokumentation – kurz: Speech2FHIR.

Der Unterschied ist wesentlich. Speech-to-Text macht aus Sprache Text. Speech-to-FHIR macht aus Sprache strukturierte Information, die in digitalen Prozessen weiterverwendet werden kann.

Damit wird KI-Dokumentation nicht zur zusätzlichen Oberfläche neben dem System, sondern Teil einer interoperablen Versorgungsinfrastruktur. Informationen können in Assessments einfließen, Formulare befüllen, Übergaben unterstützen und perspektivisch sektorenübergreifend nutzbar werden.

Die DMEA-Präsentation zeigt dafür einen wichtigen Baustein: Nicht die schönste Demo entscheidet, sondern die messbare Qualität. Welche Modelle liefern stabile Ergebnisse? Welche Fehler entstehen? Welche Rolle spielt Prompting? Und wie lassen sich Gesprächsinhalte so strukturieren, dass sie im klinischen Alltag wirklich helfen?