Wie führt man formative usability evaluationen gemäß iec 62366-1 durch?

Was Hersteller wissen müssen

Februar 2026

Executive Summary

Formative usability Evaluationen sind ein methodischer Kernbestandteil des iterativen User Interface Designs gemäß IEC 62366-1, der normativen Referenz zur Umsetzung der europäischen Medical Device Regulation (MDR). Sie dienen sowohl der kontinuierlichen Verbesserung der Benutzerschnittstelle (Design focus) als auch der frühzeitigen Identifikation sicherheitsrelevanter Use Errors (Safety focus). Geeignete Methoden reichen von Expert Reviews und Cognitive Walkthroughs bis zu frühen simulated-use Usability Tests. Ein User Interface Evaluation Plan unterstützt die Konsistenz, indem er Ziele, Methoden und Kriterien für formative und summative Aktivitäten definiert.

Die Auswertung sollte Beobachtungen zu Use Errors, close calls und use difficulties systematisch mit Ursachenanalysen verknüpfen. Entscheidend ist die Rückkopplung der Ergebnisse in Designiterationen und – sofern sicherheitsrelevant – in die Nutzungsrisikoanalyse. Eine saubere Dokumentation schafft Nachvollziehbarkeit und Traceability über Entwicklungsschritte hinweg. Dieser Artikel erläutert, wie Sie hierbei zielgerichtet und effizient vorgehen sollten.

1Die Funktion formativer Evaluationen im Entwicklungsprozess

Formative usability Evaluationen dienen der iterativen Verbesserung der Benutzerschnittstelle und sind damit ein integraler Bestandteil der User Interface Design Methodology. Im Unterschied zu summativen Nachweisen steht bei formativen Maßnahmen nicht die abschließende Validierung, sondern ein strukturierter Lern- und Optimierungszyklus im Vordergrund. Ziel formativer Evaluationen ist es, Interaktionsprobleme möglichst frühzeitig zu identifizieren und User Interface Designoptimierungen abzuleiten, bevor sie sich in spätere Entwicklungsstände verfestigen und nur noch mit hohem Aufwand korrigierbar sind.

Formative Evaluationen haben zudem eine Risikofunktion. Sie unterstützen die frühzeitige Identifikation potenzieller Use Errors, die zu hazardous situations beitragen könnten, und ermöglichen dadurch eine gezielte Weiterentwicklung der Benutzerschnittstelle, bevor eine summative Bewertung ansteht. Damit tragen formative Evaluationen nicht nur zur Gebrauchstauglichkeit im Sinne effizienter und zufriedenstellender Bedienung bei, sondern auch zur Robustheit der Benutzung in sicherheitskritischen Situationen.

2Der Doppelte Zielrahmen: Design focus und Safety focus

Formative Evaluationen lassen sich methodisch entlang zweier Zielrichtungen strukturieren, die sich in der Praxis ergänzen und häufig parallel adressiert werden. Die klare Trennung dieser Perspektiven unterstützt eine präzise Studienplanung, eine zielgerichtete Datenerhebung sowie eine nachvollziehbare Interpretation der Ergebnisse.

Design Focus
Ziel ist die Gewinnung von Erkenntnissen zur Verbesserung der Benutzerschnittstelle während der Entwicklung. Im Vordergrund stehen dabei Aspekte wie Verständlichkeit, Konsistenz, Orientierung, Informationsdarstellung, Arbeitsflussunterstützung und die Reduktion unnötiger kognitiver Belastung. Der Design Focus fragt insbesondere, ob die Benutzerschnittstelle die erwarteten mentalen Modelle der Nutzer angemessen unterstützt, ob Interaktionslogiken intuitiv nachvollziehbar sind und ob Rückmeldungen, Statusanzeigen und Systemreaktionen so gestaltet sind, dass Nutzer Handlungsentscheidungen zufriedenstellend, effektiv und effizient treffen können. Ergebnisse aus dieser Perspektive führen typischerweise zu Designanpassungen, die Bedienbarkeit, Effizienz und Fehlertoleranz verbessern, ohne dass zwingend ein direkter Sicherheitsbezug im engeren Sinne vorliegen muss.

Safety Focus
Ziel ist die Identifikation bislang unbekannter Use Errors, die zu hazardous situations führen könnten. Während der Design Focus häufig auf Optimierung „normaler“ Nutzung abzielt, betrachtet der Safety Focus gezielt jene Interaktionsstellen, an denen Fehlhandlungen plausibel sind und potenziell sicherheitskritische Konsequenzen haben können. Dabei werden nicht nur tatsächlich beobachtete Use Errors betrachtet, sondern ebenso close calls (Beinahe-Fehler), use difficulties oder Strategien, die auf eine erhöhte Fehlerwahrscheinlichkeit hinweisen. Methodisch relevant ist hier insbesondere die Frage, welche beitragenden Faktoren die Fehlbedienung begünstigen (z. B. unklare Rückmeldungen, Mehrdeutigkeiten, ungünstige Sequenzen, unzureichende Fehlerprävention oder -erkennung) und wie sich diese Faktoren durch UI-Designmaßnahmen oder begleitende risk control measures reduzieren lassen.

Diese Differenzierung ist in der Praxis hilfreich, da sie Auswahl, Tiefe und Zeitpunkt geeigneter Methoden steuert. Ein frühes Konzeptreview ist typischerweise stärker im Design Focus verankert: Es überprüft die grundlegende Handlungslogik, Konsistenz, Terminologie, Informationsarchitektur und potenzielle kognitive Belastungen, häufig noch bevor hochauflösende Prototypen verfügbar sind. Ein formativer usability test (z. B. simulated use in einem fortgeschritteneren Entwicklungsstand) kann dagegen stärker auf den Safety Focus ausgerichtet werden: Er adressiert risikorelevante Nutzungspfade, prüft die Robustheit der Benutzerschnittstelle in kritischen Situationen und macht sicherheitskritische Fehlhandlungen sowie close calls empirisch sichtbar.

In der praktischen Umsetzung bedeutet dies, dass formative Evaluationen nicht als „eine Art Test“ verstanden werden sollten, sondern als methodisch abgestufte Sequenz von Aktivitäten. Je nach Entwicklungsphase kann der Schwerpunkt zwischen Design Focus und Safety Focus variieren. Eine explizite Zielzuordnung erleichtert es zudem, Ergebnisse angemessen zu gewichten: Während designbezogene Findings häufig in inkrementelle Optimierungen münden, führen sicherheitsbezogene Findings regelmäßig zu priorisierten Maßnahmen, die unmittelbar in Risikoargumentation und nachfolgende Evaluationsplanung einfließen.

3Team- und Methodenset für formative evaluationen

Die Auswertung formativer Evaluationen erfolgt typischerweise multidisziplinär, da nutzungsbezogene Probleme selten ausschließlich auf „Usability“ im engeren Sinne zurückzuführen sind, sondern häufig aus einem Zusammenspiel von klinischem Anwendungskontext, technischen Randbedingungen, Informationsdarstellung, Arbeitsprozessen und Training entstehen. Entsprechend ist die Einbindung relevanter Stakeholder – beispielsweise aus Engineering, Clinical/Medical, Quality/Regulatory, Risk Management und Design – methodisch vorteilhaft, um Beobachtungen sowohl korrekt einzuordnen als auch in umsetzbare Design- und Risikomaßnahmen zu überführen. Ergänzend ist die Einbindung repräsentativer Nutzer sinnvoll und häufig notwendig, sofern Entwicklungsstand, Zugänglichkeit und Studiensetting dies erlauben. Repräsentative Nutzer ermöglichen insbesondere die Validierung oder Widerlegung von Annahmen über mentale Modelle, Routinen, Kontextfaktoren und typische Fehlerstrategien, die durch rein interne Reviews häufig nur eingeschränkt abbildbar sind.

Aus methodischer Perspektive ist zudem relevant, dass formative Evaluationen je nach Entwicklungsphase unterschiedlich „schwergewichtig“ angelegt werden können. In frühen Phasen stehen häufig schnelle, analytische Methoden im Vordergrund, die mit geringem Prototypreifegrad durchführbar sind. Mit zunehmender Reife der Benutzerschnittstelle verschiebt sich der Schwerpunkt hin zu empirischen Verfahren, um Interaktionsmuster unter realitätsnahen Bedingungen beobachtbar zu machen. In vielen Projekten ist daher ein kombiniertes Vorgehen zielführend: analytische Verfahren zur breiten Identifikation von Schwachstellen und empirische Verfahren zur Bestätigung, Priorisierung und Ursachenanalyse.

Als geeignete Methoden kommen unter anderem in Betracht:

Expert Reviews zur schnellen Identifikation offensichtlicher Interaktionsschwächen. Sie ermöglichen eine strukturierte Prüfung der Benutzerschnittstelle auf Inkonsistenzen, Mehrdeutigkeiten, fehlende Rückmeldungen, potenzielle Fehlbedienpfade sowie allgemein bekannte Interaktionsprinzipien oder Heuristiken.
Cognitive Walkthroughs zur Analyse der Arbeitsabläufe und von mentalen Modellen, insbesondere bei komplexen Bediensequenzen oder sicherheitskritischen Entscheidungsstellen. Sie adressieren insbesondere die Frage, ob Nutzer die intendierten Handlungsschritte aus dem User Interface heraus plausibel ableiten können
Early-stage usability tests (simulated use) zur Beobachtung realer Interaktionsabläufe auf Prototypständen. Early-stage Tests ermöglichen die empirische Beobachtung von Interaktionsverhalten, einschließlich use difficulties, close calls und potenzieller Use Errors, unter realitätsnahen (simulierten) Bedingungen. Sie sind besonders wertvoll, um tatsächliche Bedienstrategien zu erfassen, die in analytischen Methoden häufig unterschätzt werden (z. B. Workarounds, Abkürzungen, fehleranfällige Routinen, Reaktionen auf Stress oder Ablenkung). Abhängig vom Entwicklungsstand können solche Tests mit Low- bis High-Fidelity-Prototypen durchgeführt werden, wobei sich mit zunehmender Prototypreife auch die Aussagekraft in Bezug auf Timing, Feedback und Interaktionsdynamik erhöht. Gerade für risikorelevante Nutzungspfade bieten simulated-use Tests die Möglichkeit, Hypothesen aus Task Analysis und hazard-related use scenarios empirisch zu prüfen und priorisierte Designänderungen abzuleiten.

4Das formative Vorgehensmodell: Planung, Durchführung, Iteration

Ein wirkungsvolles Vorgehensmodell für formative Evaluationen folgt typischerweise einem wiederholbaren Zyklus aus Planung, Durchführung, Analyse und Iteration. Entscheidend ist, dass formative Aktivitäten nicht als isolierte Einzelmaßnahmen verstanden werden, sondern als gesteuerte Abfolge, deren Ergebnisse nachvollziehbar in Designentscheidungen und – sofern relevant – in die risikobasierte Argumentation einfließen. Der methodische Anspruch besteht darin, die explorative Natur formativer Evaluationen mit einer hinreichenden Struktur zu verbinden, damit Erkenntnisse zuverlässig vergleichbar, priorisierbar und dokumentierbar sind.

Schritt 1: User Interface Evaluation Plan etablieren

Ein User Interface Evaluation Plan bildet die organisatorische und methodische Klammer formativer (und in der Regel auch summativer) Aktivitäten. Er sollte definieren, welche Ziele mit der jeweiligen Evaluation verfolgt werden, welche Methoden eingesetzt werden, welche Evaluationskriterien gelten und wie die Evaluation in die übergeordnete Entwicklungs- und Risikologik eingebettet ist. Besonders wichtig ist die explizite Verknüpfung zu risiko- und szenariobasierten Anforderungen, da sich formative Evaluationen häufig auf spezifische Interaktionspfade, UI-Merkmale oder Nutzungssituationen beziehen, die im Risikokontext relevant sind.

Ein konsistenter Plan verhindert, dass Ergebnisse als „punktuelle Beobachtungen“ stehen bleiben, und schafft stattdessen eine nachvollziehbare Struktur: Welche Fragestellung wurde mit welcher Methode beantwortet? Welche Version des Designs wurde untersucht? Welche Nutzergruppen und Nutzungskontexte wurden adressiert? Diese Klarheit ist auch für spätere Iterationen entscheidend, da nur so erkennbar bleibt, ob Verbesserungen tatsächlich wirksam waren oder ob sich Probleme lediglich verlagert haben.

Schritt 2: Durchführung mit geeigneter Realitätsnähe

Auch formative Tests profitieren von realistischen Aufgaben und plausiblen Kontextbedingungen, jedoch in einer bewusst explorativen Logik. Die Realitätsnähe dient hier nicht primär der regulatorischen Nachweisführung, sondern der Validierung von Annahmen über Nutzung, Entscheidungslogik und Umgebungsbedingungen. Geeignet ist ein Setting, das typische Arbeitsabläufe und relevante Kontextfaktoren hinreichend abbildet, ohne den Fokus auf Lern- und Optimierungsziele zu verlieren.

In der Durchführung ist insbesondere darauf zu achten, dass Aufgabenstellungen so formuliert sind, dass sie reale Handlungsentscheidungen auslösen und nicht nur „UI-Funktionen abprüfen“. Je nach Reifegrad des Prototyps kann die Realitätsnähe über unterschiedliche Mittel hergestellt werden, beispielsweise durch die Simulation relevanter Nutzungssituationen, geeignete Materialien (z. B. Instructions for Use (IFU)-Entwürfe), typische Zeit- und Aufmerksamkeitsbedingungen oder realistische Übergänge zwischen Arbeitsschritten. Gleichzeitig bleibt die formative Logik flexibel: Wenn sich während der Durchführung zeigt, dass zentrale Probleme in einer anderen Interaktionsstelle liegen als erwartet, ist eine Anpassung des Fokus methodisch zulässig, sofern sie transparent dokumentiert wird.

Schritt 3: Analyse der identifizierten Use Problems

Die Auswertung formativer Evaluationen sollte sich nicht auf eine reine Problemauflistung beschränken, sondern konsequent ursachenorientiert erfolgen. Zentral ist die Frage, welche Beobachtungen tatsächlich eine Relevanz für Designentscheidungen besitzen und welche Faktoren die beobachteten Schwierigkeiten erklären. Dazu gehört die strukturierte Betrachtung von:

Use Errors (Fehlhandlungen/Unterlassungen mit potenziell risikorelevanten Folgen),
close calls (Beinahe-Fehler, die häufig Hinweise auf erhöhte Fehlwahrscheinlichkeit geben),
use difficulties (Schwierigkeiten, Verzögerungen, Missverständnisse oder Workarounds).

Eine belastbare Analyse untersucht, welche UI-Merkmale, welche Informationsdarstellungen, welche Interaktionssequenzen oder welche Kontextbedingungen zu den beobachteten Problemen beitragen. Besonders wertvoll ist die Identifikation wiederkehrender Muster: Treten Schwierigkeiten bei mehreren Personen an derselben Stelle auf? Zeigen unterschiedliche Nutzer ähnliche Fehlstrategien? Gibt es typische Korrekturhandlungen (z. B. Rücksprünge, wiederholtes Probieren, Abbruch) als Indikator für unzureichende Systemtransparenz oder fehlende Fehlerprävention?

Die Ursache-Wirkungs-Argumentation sollte so formuliert sein, dass daraus konkrete Designmaßnahmen ableitbar sind. Damit werden formative Ergebnisse zu einem methodischen Entscheidungsinstrument und nicht lediglich zu einer Sammlung an Beobachtungen.

Schritt 4: Designänderungen und Rückkopplung in Risikoaktivitäten

Der zentrale Output formativer Evaluationen sind priorisierte Designänderungen und eine nachvollziehbare Begründung, weshalb diese Änderungen geeignet sind, die beobachteten Probleme zu reduzieren. In der Praxis ist es hilfreich, Designmaßnahmen nicht nur als „Fixes“ zu dokumentieren, sondern als Teil einer strukturierten Iteration: Welche Änderung adressiert welche Ursache? Welche Annahme wird damit verändert? Welche Interaktionsstelle wird stabilisiert?

Parallel dazu ist eine Rückkopplung in die Risikoaktivitäten erforderlich, sofern sich aus den Ergebnissen neue oder bestätigte Use Errors ableiten lassen, die sicherheitsrelevant sein könnten. Dies betrifft insbesondere Fälle, in denen close calls oder use difficulties als Vorläufer potenzieller hazardous situations interpretierbar sind. In solchen Situationen sollten die Erkenntnisse in die Nutzungsrisikoanalyse zurückgespielt werden, um die Risikologik konsistent zu halten und die Grundlage für eine risikobasierte Planung nachfolgender Evaluationen zu stärken.

Damit entsteht ein geschlossener Lernkreislauf: Formative Evaluationen verbessern nicht nur die Bedienbarkeit, sondern stabilisieren zugleich die sicherheitsbezogene Argumentation, indem sie risikorelevante Erkenntnisse frühzeitig sichtbar machen und gezielt in Design- und Risikomaßnahmen überführen.

5Dokumentationsanforderungen

Die Richtlinie sieht eine sorgfältige Auswahl der Teilnehmer, gegebenenfalls Schulungen und Datenerfassung mit dem Schwerpunkt auf die Critical Tasks vor. Die Richtlinie betont, dass Personen, die häufig an Usability-Tests desselben Geräts oder anderer Geräte desselben Herstellers teilnehmen, ausgeschlossen werden sollten. Interessant im Vergleich zu anderen Richtlinien ist, dass die NMPA-Richtlinie explizit eine Begründung erwartet, wenn keine Geräteschulung für die Testteilnehmer erforderlich ist. Die Testberichte sollten detaillierte Angaben zu den Zielen, Simulationsbedingungen, Ergebnissen in Bezug auf Use Errors und damit verbundene Root Causes sowie etwaigen Abweichungen enthalten.

Formative Evaluationen sind in einer Weise zu dokumentieren, dass die Ergebnisse nachvollziehbar, reproduzierbar im Sinne der methodischen Logik und für nachgelagerte Aktivitäten anschlussfähig sind. In der Praxis erfolgt dies typischerweise über Test- oder Evaluationspläne (Evaluation Protocols) und Berichte (Evaluation Reports), die nicht nur einzelne Beobachtungen festhalten, sondern eine konsistente Argumentationskette von Zielsetzung über Methode bis zur abgeleiteten Maßnahme ermöglichen. Dabei ist weniger die reine Umfangstiefe entscheidend als die strukturierte Transparenz: Dritte sollen verstehen können, warum die Evaluation durchgeführt wurde, wie sie durchgeführt wurde, was beobachtet wurde und welche Schlussfolgerungen daraus methodisch begründet abgeleitet wurden.

Ein vollständiges Dokumentationsset umfasst in der Regel folgende Inhalte:

Ziele und Fragestellungen: klare Benennung, ob die Evaluation primär designorientiert, sicherheitsorientiert oder kombiniert ausgerichtet war, und welche UI-Aspekte oder Use Scenarios im Fokus standen.
Methodik und Studiendesign: Beschreibung der angewandten Methode(n) (z. B. Expert Review, Cognitive Walkthrough, Usability Test (simulated-use)), inklusive Begründung der Methodenauswahl im Verhältnis zum Entwicklungsstand des User Interface.
Stichprobe und Repräsentativität: Charakterisierung der einbezogenen Nutzer bzw. Experten, inklusive relevanter Merkmale in Bezug auf intended user profiles (z. B. Erfahrung, Qualifikation, potenzielle Limitationen), sowie – sofern zutreffend – eine Begründung der Abdeckung und Grenzen der Repräsentativität.
Testobjekt und Versionierung: eindeutige Angabe, welche Version der Benutzerschnittstelle bzw. welche Prototypstände bewertet wurden, einschließlich relevanter Begleitmaterialien (z. B. IFU-Entwürfe, Trainingsannahmen).
Aufgaben und Szenarien: Beschreibung der verwendeten Aufgabenstellungen, Use Scenarios und Rahmenbedingungen, idealerweise so, dass die Logik der Aufgabenableitung und die beabsichtigte Auslösung bestimmter Interaktionspfade erkennbar wird.
Datenerhebung und Auswertelogik: Darstellung, welche Daten erhoben wurden (z. B. Beobachtungen, Fehlerklassifikation, qualitative Notizen), wie Beobachtungen strukturiert wurden und nach welchen Kriterien Interpretation und Priorisierung erfolgten.
Ergebnisse in strukturierter Form: konsistente Dokumentation von use errors, close calls und use difficulties, inklusive Kontext, beobachteter Handlungssequenz sowie – soweit möglich – einer Root Cause Analysis bzw. beitragender Faktoren.
Abgeleitete Maßnahmen und Designentscheidungen: konkrete, nachvollziehbar begründete Maßnahmen, die aus den Ergebnissen abgeleitet wurden, einschließlich Priorisierung und Begründung, weshalb die Maßnahme geeignet ist, die beobachtete Ursache zu adressieren.

Wesentlich ist dabei die Anschlussfähigkeit: Die weitere Entwicklungsdokumentation sollte nachvollziehbar zeigen, wie formative Ergebnisse in Designentscheidungen und in die Nutzungsrisikoanalyse eingeflossen sind. Dies umfasst insbesondere die Verbindung zwischen beobachteten Problemen, ihrer Ursacheninterpretation und den implementierten oder geplanten Designänderungen.

Darüber hinaus hat die Dokumentation eine wichtige Steuerungsfunktion im Projektverlauf. Sie ermöglicht, über Iterationen hinweg zu prüfen, ob Maßnahmen wirksam waren, ob sich Probleme verlagert haben oder ob neue Risiken entstanden sind. Eine klare Versionierung und eine konsistente Ergebnisstruktur erleichtern zudem die spätere Vorbereitung summativer Evaluationsaktivitäten, da sie sichtbar machen, welche risikorelevanten Interaktionsstellen bereits adressiert wurden und welche Aspekte weiterhin kritisch bleiben.

Disclaimer

Die in diesem Fachartikel dargestellten Informationen zu Normen und Richtlinien wurden nach bestem und fundiertem Expertenwissen dargelegt. Sie spiegeln hierbei rein die Meinung des Autors wider. Es kann keine Gewähr für die Vollständigkeit, Aktualität und Richtigkeit der Angaben übernommen werden. Normen und Richtlinien unterliegen regelmäßigen Überarbeitungen und Änderungen, die hier nicht immer unmittelbar berücksichtigt werden können. Dieser Artikel stellt keine verbindliche Beratung dar und ersetzt keine Prüfung der jeweils gültigen Normen und Richtlinien durch qualifizierte Fachpersonen oder offizielle Stellen. Für die Anwendung der Normen und Richtlinien und deren Auslegung sind stets die aktuell gültigen Originaldokumente sowie die zuständigen Organisationen maßgeblich.

Als Usability-Engineering-Spezialisten unterstützen wir von USE-Ing. Sie gerne bei der Planung, Durchführung und Dokumentation von Formativen Usability Evaluationen. Sie haben Fragen? Sprechen Sie uns gerne an.