Usability Engineering für KI‑Medizinprodukte

Praktische Implikationen für das Usability Engineering von KI‑Medizinprodukten

Mai 2026

Dr. Benedikt Janny, Katrin Gernert

Executive Summary

Usability Engineering für KI‑Medizinprodukte stellt Hersteller vor neue Herausforderungen, denn Künstliche Intelligenz (KI) verändert die Medizintechnik grundlegend – sowohl in der technischen Funktionsweise als auch in der Interaktion zwischen Mensch und Gerät. Usability Engineering für KI‑unterstützte Medizinprodukte (AI-enabled medical devices) stellt somit neue Anforderungen an Human Factors, Risikomanagement und regulatorische Prozesse. Während klassische Medizinprodukte auf fest definierten Parametern beruhen und in identischen Situationen vorhersehbar reagieren, erzeugen KI‑basierte Systeme probabilistische, variierende und kontextabhängige Outputs. Diese Dynamik beeinflusst klinische Arbeitsabläufe, Rollenbilder und kognitive Anforderungen der Anwender:innen erheblich.

Für die sichere Integration von KI in medizinische Produkte rückt der Usability Engineering Prozess stärker in den Mittelpunkt: Nutzerprofile verändern sich, Aufgaben verschieben sich hin zur Bewertung Plausibilisierung und kritischen Interpretation von KI-Outputsim Sinne eines Human-in-the-Loop (HITL) und Human Oversight Paradigma, und neue potenzielle Risiken entstehen insbesondere durch Fehlinterpretationen oder fehlende Plausibilitätsprüfungen. Gleichzeitig erschweren variable KI‑Outputs und mögliche Systemfehler die klare Abgrenzung zwischen Use Error und Produktfehler, Model Limitation und Data-Induced Error.

Der Artikel zeigt auf, wie diese Veränderungen alle zentralen Deliverables des Usability Engineering – von der Use Specification als zunehmend dynamisches Artefakt über die Aufgabenanalyse bis hin zu Hazard‑Betrachtungen, Usability Tests und Post‑Market‑Surveillance – beeinflussen. Er betont die Notwendigkeit enger Kollaboration zwischen Usability Expert:innen, klinischen Fachbereichen, Risikomanagement und KI‑Entwicklung sowie die Bedeutung kontinuierlicher Überwachung nach dem Inverkehrbringen im Kontext von Good Machine Learning Practice (GMLP) und AI Lifecycle Management. Ziel ist es, KI‑gestützte Medizinprodukte sicher, verständlich und zuverlässig in bestehende medizinische Arbeitsabläufe zu integrieren und dabei Patient:innen‑ und Anwendersicherheit bestmöglich zu gewährleisten

1KI‑Medizinprodukte / AI-enabled Medical Devices & Human-AI-Interacion

Künstliche Intelligenz ist sowohl im privaten Umfeld als auch im beruflichen Alltag nicht mehr wegzudenken und hält zunehmend Einzug in die Medizintechnik. Neben zahlreichen Vorteilen bringt diese Entwicklung jedoch auch Herausforderungen mit sich. KI kann ganze Arbeitsabläufe verändern und direkt oder durch Handlungsempfehlungen in die medizinische Entscheidungsfindung und das medizinische Handeln eingreifen.

Der wesentliche Unterschied zwischen KI‑unterstützten und klassischen Medizinprodukten hinsichtlich der Benutzerschnittstelle liegt in der Art der Informationen, die den Nutzer:innen bereitgestellt werden. Klassische Medizinprodukte basieren auf fest programmierten Parametern und klar definierten Grenzwerten. Werden beispielsweise Luftblasen in einem ECMO‑Schlauchsystem detektiert, löst das System einen Alarm aus und kann automatisch einen Pumpenstopp einleiten, um Schäden zu vermeiden.

Bei KI‑unterstützten Medizinpodukten hingegen basieren Entscheidungen nicht auf starren Parametern, sondern auf erlernten Mustern. Dies ermöglicht komplexere Anwendungen, wie die Identifizierung von Krebsstrukturen in CT‑ und MRT‑Bildern, bei denen organ‑ und patientenabhängige Gewebevariationen eine starre Parametrierung unmöglich machen. KI‑Systeme können durch Training mit positiven und negativen Befunden Muster erkennen und diese auf verschiedene Organstrukturen übertragen. Damit ähnelt das Vorgehen dem menschlichen Lernen. Gleichzeitig stellt sich die Frage, ob KI‑gestütztes medizinisches Handeln einem Teammitglied gleichgesetzt werden kann. Wie Menschen kann jedoch auch KI Fehler machen, die nicht allein auf technische Defekte zurückzuführen sind.

Ein weiterer Unterschied besteht darin, dass klassische Medizinprodukte bei identischem Input immer gleich reagieren, während KI‑Medizinprodukte aufgrund ihrer Lernfähigkeit unterschiedliche Ergebnisse für dieselbe Situation liefern können. Diese Dynamik hängt davon ab, ob ein System nur während der Entwicklung trainiert wird oder auch nach dem Inverkehrbringen weiterlernt. Da die Qualität der Trainingsdaten die Qualität der KI maßgeblich beeinflusst, können fehlerhafte Eingaben zu falschen Schlussfolgerungen führen.

Die folgende Grafik verdeutlicht diese Mensch-KI-Interaktion, welche basierend auf dem PCA-Ansatz (Perception, Cognition, Action) als geschlossener Regelkreis zwischen Nutzer:in und Medizinprodukt dargestellt wird.

Basisschema der Mensch-KI-Interaktion in Anlehnung an Engler et al. Usability Engineering for

Medical Devices using Artificial Intelligence and Machine Learning Technology – A Position Paper of DKE UK 811.4 (2024)

Das KI-unterstützte System verarbeitet Daten mithilfe von Machine Learning und erzeugt daraus Outputs in Form von beispielsweise Vorhersagen, Empfehlungen oder Entscheidungen, die über das User Interface an Nutzer:innen ausgegeben werden. Diese nehmen die Informationen wahr (Wahrnehmung/Perception), interpretieren sie (Kognition/Cognition) und handeln entsprechend (Handlung/Action), wodurch neue Inputs in das System zurückfließen. Diese Inputs führen gegebenenfalls aufgrund kontinuierlicher Lernvorgänge zu Systemanpassungen, was sich wiederum auf die Interaktion auswirken kann.

2Einflüsse auf den Usability Engineering Prozess bei KI-Medizinprodukten

2.1 Use Specification

Durch den Einsatz von KI können manuelle Tätigkeiten des klinischen Personals automatisiert werden. Diese Automatisierung verändert die Anforderungen an Nutzer:innen und damit deren Nutzerprofile (Intended User Profiles). Der Wegfall körperlich belastender Tätigkeiten kann beispielsweise die demografische Zusammensetzung einer Benutzergruppe (intended User Group) beeinflussen, was wiederum Auswirkungen auf Anforderungen an Benutzerschnittstellen (User Interface Specifications) und Trainingsmaßnahmen hat. Zudem verändern sich Arbeitsabläufe sowie Aufgaben, die neue Fähigkeiten und Erfahrungen erfordern können.

Auch Arbeitsort und sozialer Austausch können sich durch KI‑unterstützte Medizinprodukte maßgeblich verändern. Wenn Handlungsvorschläge oder automatisierte medizinische Handlungen durch KI erfolgen, kann sich der fachliche Austausch im Team reduzieren. Eine automatisierte Medikamentengabe kann zudem die Interaktion mit Patient:innen minimieren und Arbeitsorte weiter von patientennahen Bereichen wegführen.

Diese Beispiele verdeutlichen, wie eng Nutzungskontext (Context of Use), Benutzerschnittstellen (User Interface) und Trainingsmaßnahmen miteinander verknüpft sind. Das grundsätzliche Vorgehen zur Ermittlung des Nutzungskontexts bleibt unverändert, jedoch ist eine besonders sorgfältige Analyse der Nutzer:innen, deren Aufgaben und Ziele, der notwendigen Ressourcen und der Nutzungsumgebung erforderlich, da KI tiefgreifende Änderungen mit sich bringt.

2.2. Aufgabenanalyse (PCA Task Analysis)

Durch KI‑Medizinprodukte können sich Arbeitsabläufe erheblich verändern. Statt Diagnosen völlig eigenständig zu stellen, erhalten Radiolog:innen beispielsweise bereits Vorschläge durch die KI, die als Grundlage für die finale Diagnoseentscheidung dienen. Diese erste Orientierung erleichtert Entscheidungen, birgt jedoch die Gefahr, dass Ergebnisse ungeprüft übernommen werden. Daher ist eine sorgfältige Plausibilitätsprüfung unerlässlich.

Trotz dieser Veränderungen bleibt es sinnvoll, vor Beginn der Produktentwicklung bestehende Abläufe zu analysieren, um Aufgaben zu identifizieren, die automatisiert werden können, und solche, die durch KI bedingte Herausforderungen neu entstehen. Anhand des folgenden Beispiels werden die Unterschiede zwischen den IST-Szenarien und den Aufgabenmodellen der neuen Produktgeneration in Kombination mit KI verdeutlicht:

Die Rolle der Radiolog:innen verschiebt sich somit von der detaillierten Bildanalyse hin zur Bewertung der Plausibilität des KI Outputs. Führt die KI darüber hinaus auch Handlungen automatisch durch, verschiebt sich der Aufgabenfokus weiter in Richtung Überwachung statt aktiver Durchführung.

2.3 Use Errors bei KI-Medizinprodukten & daraus entstehende Gefährdungssituationen

Auch bei Interaktion mit einer KI bleibt die Definition eines Use Errors unverändert. Use Errors umfassen Handlungen, die Anwender:innen mit dem Medizinprodukt durchführen, oder die Unterlassung einer notwendigen Handlung, wodurch ein anderes Ergebnis entsteht als vom Hersteller beabsichtigt oder vom Benutzer erwartet und wodurch gegebenenfalls Gefährdungssituationen entstehen können.

Durch das vorgelagerte medizinische Handeln der KI (z. B. Empfehlungen, Vorhersagen, Triage-/Entscheidungsunterstützung) und den notwendigen Plausibilitätscheck verschieben sich insbesondere die kognitiven Anforderungen an die Anwender:innen. Im Vergleich zu klassischen, in identischen Situationen deterministisch reagierenden Systemen können KI-Medizinprodukte / KI-gestützte Medizinprodukte in ähnlichen Situationen variierende Outputs erzeugen. Diese Variabilität kann Unsicherheiten fördern und die Notwendigkeit einer fachlichen Einordnung verstärken. In der Nutzungssituation wird damit die Bewertung des Outputs selbst Teil der Interaktion und eine ausschlaggebende kognitive Aufgabe.

Eine zentrale zukünftige Fragestellung ist die Bewertung von Ursachen und Verantwortlichkeiten, wenn Anwender:innen einer KI-Empfehlung folgen und sich diese als medizinisch falsch erweist. Der EU AI Act definiert hierfür Akteursrollen wie Provider (Anbieter) und Deployer (Betreiber/Nutzer unter eigener Autorität). Diese Rollendefinitionen strukturieren Pflichten entlang der Liefer- und Nutzungskette, lösen jedoch nicht automatisch die praktische Abgrenzung im Einzelfall, ob ein Fehlverlauf durch

a) System-/Informationsfehler,
b) Use Error oder
c) eine Kombination beider Faktoren verursacht wurde.

Für die Use-Error-Analyse ergeben sich hieraus mehrere Unsicherheiten:

KI-Outputs sind nicht immer „perfekt“, sondern können probabilistisch, unvollständig oder kontextsensitiv sein. Ein falscher oder suboptimaler Output kann sowohl als erwartbares Restrisiko innerhalb definierter Leistungsgrenzen als auch als Indiz für einen Produkt-/Informationsfehler interpretiert werden (z. B. unzureichende Robustheit, unklare Zweckbestimmung, fehlende Warnhinweise, mangelnde Transparenz über Grenzen).

Gleichzeitig kann das blinde Folgen ohne Plausibilitätscheck als Use Error gelten, da es sich um die Unterlassung einer notwendigen Handlung handelt, die zur sicheren und bestimmungsgemäßen Nutzung erforderlich ist.

In der Praxis sind kombinierte Ursachen realistisch: Ein nicht optimaler KI-Output (Systemseite) plus unzureichender Plausibilitätscheck (Nutzungsseite) können gemeinsam zur Hazardous Situation beitragen. Die Ursachenanalyse muss daher systematisch trennen: Was war in der Nutzungssituation für Anwender:innen erkennbar, welche Informationen/Signale standen zur Verfügung und welche Handlungen waren realistisch erwartbar?

Damit wird der Plausibilitätscheck zu einer kritischen User Task und zugleich zu einer Risikokontrollmaßnahme, deren Wirksamkeit nicht nur von der Anwenderkompetenz abhängt, sondern auch von der systemseitigen Unterstützung (z. B. Transparenz, Erklärhinweise, Warnungen, Darstellung von Unsicherheit, Logging/Traceability). Der AI Act adressiert diese Lebenszyklus-Perspektive über Pflichten für Hochrisiko-Systeme, insbesondere durch Anforderungen an Nachvollziehbarkeit, Dokumentation und Überwachung nach dem Inverkehrbringen. Für Anbieter von Hochrisiko-KI ist ein Post-Market-Monitoring-System verpflichtend, das Daten zur Performance über die Lebensdauer hinweg sammelt und analysiert, um fortlaufende Konformität und Risiken/Leistungsänderungen zu erkennen.

Zusammenfassend spielt bei der Identifikation von Use Errors (und der Ableitung geeigneter Risikokontrollen) das Eingreifen bzw. Nicht-Eingreifen bei fehlerhafter, unsicherer oder uneindeutiger KI sowie das finale medizinische Handeln eine zentrale Rolle. Nicht durchgeführte oder unzureichende Plausibilitätschecks sind eine plausible und voraussichtlich häufige Fehlerursache in KI-gestützten Nutzungskontexten. Gleichzeitig bleibt die Abgrenzung in der Praxis mit Unsicherheiten behaftet: Ob eine Unterlassung als Use Error zu werten ist, hängt wesentlich davon ab, ob der Hersteller die Notwendigkeit, den Umfang und die Durchführbarkeit des Plausibilitätschecks in der konkreten Nutzungssituation angemessen unterstützt (u. a. durch verständliche Informationen, geeignete UI, Warnungen sowie nachvollziehbare Grenzen und Unsicherheiten des Systems). Die genaue Umsetzung wird sich in der Zukunft zeigen. Die Identifikation von Hazard-related Use Scenarios kann in unserer Wissensplattform vertieft werden.

2.4 Usability Evaluierungen

Die in Kapitel 2.3 beschriebenen Herausforderungen wirken sich unmittelbar auf die Planung, Durchführung und Interpretation von Usability Evaluierungen aus. Während klassische Medizintechniktests in der Regel davon ausgehen, dass ein System bei identischem Input konsistente und medizinisch korrekte Informationen liefert, verändern KI‑Medizinprodukte diese Grundannahme: Ein Testteilnehmer kann die angezeigte Information korrekt interpretieren und formal „richtig“ anwenden – und dennoch zu einem medizinisch falschen Ergebnis gelangen, wenn der KI-Output selbst fehlerhaft ist. Hier kommt der von den Anwender:innen geforderte Plausibilitätscheck und die damit in Verbindung stehenden sowie in Kapitel 2.3 erklärten Herausforderungen ins Spiel. Für die Bewertung im Usability Test stellt sich damit die Frage, ob ein beobachtetes Problem als Use Error oder als Systemfehler (bzw. Produktfehler) zu klassifizieren ist.

Usability Teams benötigen daher erweiterte klinische Expertise im Testsetting, um medizinisch-inhaltliche Fehlbewertungen durch das Moderatoren- und Protokollantenteam zu vermeiden. Dies kann durch die Anwesenheit klinischer Expert:innen, vorbereitete medizinische Referenzpfade oder eng abgestimmte Bewertungskriterien unterstützt werden.

Eine weitere Herausforderung entsteht durch potenziell variable KI Outputs: Lernende oder adaptierende Modelle können auf denselben Testinput in verschiedenen Testsitzungen unterschiedliche Ergebnisse liefern. Für die Usability Evaluation bedeutet dies, dass Testprotokolle und Akzeptanzkriterien flexibel gestaltet werden müssen, um unterschiedliche Systemreaktionen korrekt einordnen zu können. Gleichzeitig müssen Evaluator:innen klar definieren, wie mit divergierenden Outputs umzugehen ist, um sowohl Wiederholbarkeit als auch Vergleichbarkeit zwischen Tests sicherzustellen.

Insgesamt führen KI-Medizinprodukte (AI-enabled medical devices) dazu, dass Usability Evaluierungen stärker zwischen Interpretationsfehler der Anwender:innen und Inhaltsfehlern des Systems unterscheiden müssen. Beide können ähnlich aussehen, aber unterschiedliche Ursachen, Risiken und regulatorische Konsequenzen haben. Dadurch gewinnen multidisziplinäre Teams, medizinische Referenzstandards und präzise Dokumentation der Systemoutputs im Test eine deutlich höhere Bedeutung als in klassischen Usability Studien.

2.5 Post-Market-Surveillance

Insbesondere bei KI unterstützten Medizinprodukten, die nach dem Inverkehrbringen weiter angepasst oder aktualisiert werden, gewinnt die Post Market-Surveillance (PMS) erheblich an Bedeutung. Hersteller müssen sicherstellen, dass Anwender:innen das Produkt effizient und sicher nutzen können, auch wenn sich Outputs durch neue Trainingsdaten oder Modellaktualisierungen ändern.

Der EU AI Act verpflichtet Hersteller zu erweiterten Überwachungs-, Reporting und Dokumentationsprozessen, um Modellleistung, Datendrift und mögliche Interaktionen mit anderen KI‑unterstützte Medizinprodukten kontinuierlich zu überprüfen. Diese KI spezifischen Anforderungen erweitern das klassische PMS und beeinflussen damit auch die langfristige Sicherstellung einer hohen Usability.

Usability Engineering für KI‑Medizinprodukte - Conclusion

KI verändert die Medizintechnik grundlegend: Statt deterministischer, klar vorhersagbarer Systemreaktionen entstehen dynamische, kontextabhängige Outputs, die neue Anforderungen an Anwender:innen und deren Entscheidungsprozesse stellen. Insbesondere der notwendige Plausibilitätscheck von KI-Ergebnissen wird zur zentralen Nutzeraufgabe und gleichzeitig zu einer kritischen Risikokontrollmaßnahme. Dadurch verschieben sich Rollen, Arbeitsabläufe und potenzielle Fehlerquellen deutlich – und die klare Abgrenzung zwischen Use Error und Systemfehler wird komplexer.

Für Hersteller bedeutet das: Usability Engineering muss früher, tiefer und interdisziplinärer gedacht werden – von der Use Specification bis zur Post-Market-Surveillance. Nur durch ein integriertes Zusammenspiel von UX, klinischer Expertise, Risikomanagement und KI-Entwicklung lassen sich sichere, verständliche und normkonforme KI‑Medizinprodukte / KI-unterstütze Medizinprodukte realisieren.

Unterstützung durch USE Ing.
Wenn Sie KI-basierte Medizintechnik entwickeln oder weiterentwickeln, unterstützen wir Sie gerne – z. B. bei:

Anpassung Ihres Usability Engineering Prozesses an KI-Systeme
Durchführung von PCA-Analysen und Use-Error-Bewertungen
Entwicklung von verständlichen und sicheren User Interfaces für KI-Outputs
Planung und Durchführung von KI-spezifischen Usability-Tests
Integration von Regulatory-Anforderungen (IEC 62366, EU AI Act)

Kommen Sie gerne auf uns zu – wir bringen Ihre KI‑Medizinprodukte sicher, nutzerzentriert und normkonform in die Praxis.

Disclaimer

Die in diesem Fachartikel dargestellten Informationen zu Normen und Richtlinien wurden nach bestem und fundiertem Expertenwissen dargelegt. Sie spiegeln hierbei rein die Meinung des Autors wider. Es kann keine Gewähr für die Vollständigkeit, Aktualität und Richtigkeit der Angaben übernommen werden. Normen und Richtlinien unterliegen regelmäßigen Überarbeitungen und Änderungen, die hier nicht immer unmittelbar berücksichtigt werden können. Dieser Artikel stellt keine verbindliche Beratung dar und ersetzt keine Prüfung der jeweils gültigen Normen und Richtlinien durch qualifizierte Fachpersonen oder offizielle Stellen. Für die Anwendung der Normen und Richtlinien und deren Auslegung sind stets die aktuell gültigen Originaldokumente sowie die zuständigen Organisationen maßgeblich.

Als Usability-Engineering-Spezialisten unterstützen wir von USE‑Ing. Sie bei der Entwicklung KI-basierter Medizintechnik. Profitieren Sie von unserer Expertise – von der Konzeption bis zur Umsetzung. Haben Sie Fragen? Sprechen Sie uns gerne an.