Gütekriterien

Vor dem Einsatz eines Assessment-Instrumentes ist die Frage zu klären:

Taugt das Instrument überhaupt füt die Absicht?

Zur Frage der Eignung eines Messinstrumentes für den praktischen Einsatz gibt es eine Vielzahl von Prüfkriterien, die Gütekriterien genannt werden. Die meisten stammen aus der klassischen Messtheorie, sind also innerhalb der Psychologie bei der Entwicklung von Tests entwickelt worden. Die Methodenentwicklung der Psychologie hat also ein wichtiges Fundament für die Bewertung von Assessment-Instrumenten gelegt. Hier gibt es einen großen Fundus an Richtlinien für die Entwicklung, die Bewertung und Durchführung von Messverfahren (siehe z.B. http://www.zpid.de/redact/category.php?cat=88).

Aufgrund der psychologischen Grundlagenarbeit wird daher oft auch von psychometrischen Bewertungskriterien gesprochen. Das ist eigentlich falsch, denn die Zuordnung von Skalen zu empirischen Relativen, die psychologisch relevant sind (z.B. Empfinden, Verhalten etc.) findet man in der Pflegewissenschaft nur selten. Es sollte stattdessen von messtheoretischen Bewertungskriterien gesprochen werden.

Es ist wichtig, vor dem Einsatz eines Assessments in der Praxis möglichst viele dieser Güteriterien zu prüfen. Wenn bespielsweise vor dem Einsatz gefragt wird: "Ist das Verfahren valide?", dann ist dies nicht ausreichend, denn ein valides Verfahren muss nicht zwingend ein geeigntes Verfahren sein!
Es müssen drei Klassen von Bewertungskriterien unterschieden werden:
  1. Kriterien für die Durchführung von Assessments
  2. Klassische messtheoretische Gütekriterien
  3. Zusätzliche Prüfkriterien für den Einsatz in der Praxis. 

1)    Bewertungskriterien für die Durchführung von Assessments:

  • Zumutbarkeit
  • Transparenz gegenüber den Patienten
  • Geringe Verfälschbarkeit
  • Geringe Störanfälligkeit
  • Abbildung der relevanten Phänomene.

2) Klassischen Gütekriterien zählen:

  • Objektivität
  • Reliabilität
  • Validität

Objektivität:

Wenn Personen, die das Verfahren durchführen, auswerten oder interpretieren zu gleichen Ergebnissen kommen, ist das Assessment objektiv.

Die Durchführungsobjektivität kann durch eine genaue Regelung wann, wie und durch wen die Messung durchzuführen ist, erhöht werden. Ebenso sollte geklärt werden, wie mit nicht beurteilbaren Kriterien umzugehen ist. Raum, Zeit und andere Rahmenbedingungen sollten keinen Einfluss haben.

Die Auswertungsobjektivität ist gesichert, wenn eine klare Zuordnung von Bewertungskriterien zu Zahlenwerten möglich ist, d.h. ein Bewertungsschlüssel vorliegt. Hier sind beispielsweise computergestütze Assessments ("electronic diaries") im Vorteil, da es dort eine ganz klar Zuordnung von Kriterien und Scores gibt und die Verrechung automatisch erfolgt.

Auch Beobachtungsfehler können die Auswertungsobjektivität bedrohen. Daher sind manchmal Beobachterschulungen empfehlenswert.

 Beobachterschulungen und klare Durchführungsrichtlinien können die Objektivität des Assessments erhöhen!

Die Interpretationsobjektivität ist gesichert, wenn verschiedene Pflegende dem gleichen Pflegezustand die selbe Wertigkeit auf der Messskala zuordnen. Ob man nun ein Wert als hoch oder niedrig bewertet, hängt auch von einem Vergleich mit Vergleichsnormen ab, die an früheren Stichproben gesammelt wurde.

Reliabilität 

Reliabilität = Messgenauigkeit, Zuverlässigkeit

Unter Reliabilität versteht man die Messgenauigkeit, Präzision oder Zuverlässigkeit eines Verfahrens.

Wenn Sie versuchen, die Größe einer Person mit einem elastischen Gummiband zu messen, dann werden Sie immer wieder zu anderen Ergebnissen kommen. Die Messung ist fehlerbehaftet und daher nicht reliabel. Kommen Sie aber bei mehrmaliger Messung zu gleichen Ergebnissen, dann ist eine hohe Reliabilität gesichert. 

Assessmentverfahren sollen nicht zu systematischen Fehlmessungen führen!

Es gibt drei wichtige Parameter zur Bestimmung der Reliabilität, die alle auf der Berechnung des Korrelationskoeffizienten beruhen. Er ist ein Maß für den Zusammenhang zweier Meßwerte. Dabei gilt: „Je höher der Reliabilitätskoeffizient , desto zuverlässiger ist die Messung und desto weniger Gedanken muss sich ein Auswerter darüber machen, wie ernst er das Messergebnis nehmen soll“ (Kanning, 2002, S.67). Verfahren mit einer niedrigen Reliabilität, sind meist fehlerhaft und erlauben nur eine sehr grobe Einschätzung des Patienten.

Da es in der Literatur viele verschiedene Validitäts- und Reliabilitätsprüfungen gibt, werden häufig Metaanalysen herangezogen, bei der Einzelstudien zur gleichen Fragestellung zusammengefasst werden. Man erhält dadurch einen mittleren Korrelationskoeffizienten als grobe Richtschnur für die Brauchbarkeit des Verfahrens. Dies ist jedoch nicht ganz unumschritten, da hier Stichprobenunterschiede vernachlässigt werden.

Alle Reliabilitätsindizes arbeiten nach dem gleichen Prinzip: Die Zuverlässigkeit wird durch wiederholte Messungen oder durch Erhebungen mit einem ähnlichen Verfahren bestimmt. Ähneln sich die Ausprägungen oder stimmen sie überein, dann ist das Messverfahren reliabel, d.h., die Fehler bei der Messung sind gering. Ein wichtiger Qualitätsbeweis des Verfahrens ist damit erbracht.  

Drei Arten von Reliabilitäten werden unterschieden: 

  • Interne Konsistenz : Die mittlere Korrelation zwischen allen Items eines Testverfahrens bildet einen bekannten Kennwert für die interne Konsistenz: Cronbachs-Alpha.
  • Parallelltest-Reliabilität: Hier wird wird geprüft, wie stark zwei Verfahren, die vorgeben gleiches zu messen, übereinstimmen.
  • Ein häufig verwendetes Reliabilitätskriterium ist die Retest-Reliabilität, auch als Stabilität bezeichnet. Lässt man zwei Beurteilende mit dem gleichen Assessment ein und den selben Patienten zur selben Zeit bewerten, dann sollte es bei einem fehlerfreien Messverfahren zu einer großen Übereinstimmung kommen. Man spricht dann von der Interrater-Reliabilität. Auch hier gilt: Dieses Maß allein reicht nicht aus um etwas über die Eignung des Verfahrens zu sagen!

Validität 

Validität = Gültigkeit, Brauchbarkeit einer Messung 

Validität bezeichnet die Gültigkeit der Messung. Manchmal ist auch von Brauchbarkeit oder Tauglichkeit die Rede. Hierbei geht es um die Frage: Misst das Verfahren das, was es messen soll oder misst es eine andere Dimensionen? 

Misst ein Verfahren nicht das eigentliche Kriterium, sondern andere Aspekte, ist die Validität bedroht! 

Es gibt drei wesentliche Validitätsarten:

  • Inhaltsvalidität oder Kontentvalidität
  • Konstruktvalidität wird nur bei Verfahren bestimmt, die auch Konstrukte (z.B. Mobilität) messen. Die Zuordnung von Items/Kriterien zu Konstrukten ergibt sich aufgrund theoretischer Überlegungen. Mittels statistischer Methoden wird geprüft, ob sich tatsächlich ein hoher Zusammenhang zwischen Konstrukt und Items aufdecken lässt. 
  • Das wichtigste Maß im Rahmen der Qualitätsbestimmung von Assessmebtverfahren ist die kriteriumsbezogene Validierung. Hierbei wird geprüft, ob das Urteil, das auf einer Assessmentmethode basiert, mit einem Außenkriterium in Verbindung steht. Also ob beispielsweise eine Risikoeinschätzung mit physiologische Risikoparametern in Verbindung steht oder mit dem Urteil von Experten. Geht es um die Prüfung eines Verfahren mit einem anderen instrument zu einem Zeitpunkt, spricht man auch von der Übereinstimmungsvalidität oder konkurrenten Validität .Bei Risikoskalen wird jedoch meist ein späteres Außenkriterium herangezogen. In diesem Fall spricht man von der prognostischen Validität. 

    Prognostische Validität = Vorhersageleistung eines Verfahrens 

Die Validität kann durch die Kombination mehrerer Assessmentverfahren erhöht werden.  Da Validitätskoeffizienten von 1 nie erreicht werden, wird deutlich, dass es eine völlige Sicherheit bei der Anwendung von Assessments auch statistisch nicht gibt. Pflegephänomene sind eben nicht gänzlich durchschaubar und jedes Verfahren hat auch seine Mängel. Dies macht nochmals deutlich, dass ergänzend  das Fallverstehen wichtig ist.

 

3. Weitere Kriterien für den Einsatz in der Praxis:

 

Neben den klassischen Bewertungskriterien, die innerhalb der Messtheorie entstanden sind, gibt es inzwischen eine Vielzahl von weiteren Kriterien, die bei der Bewertung von Assessment-Instrumenten beachtet werden müssen:

 

  • Ökologische Validität: Hierbei handelt sich um ein facettenreiches Konstrukt, das die Sichtweise der bewertenden Personen (Pflegenden, Zupflegende) und auch die Relevanz der Ergebnisse berücksichtigt. Zentrale Frage: Können die Ergebnisse, die man gesammelt hat, auf andere Umwelten (daher ökologisch!)  übertragen werden? Beispielsweise kann bezweifelt werden, ob eine Schmerzmessung, die im stationären Kontext vorgenommen wurde, so ohne weiteres auf die Verhältnisse im häuslichen Bereich übertragbar sind.

    Es ist daher dringend zu empfehlen, zielgruppenspezifische Assessments zu entwickeln und sich von der Idee universeller Assessmentinstrumente zu verabschieden!

  • Verfügbarkeit: Es gibt unzählige pflegerelevanten Fassetten, die man erfassen kann. Nicht für alle liegen entsprechende brauchbare Instrumente vor. Wovon hängt aber die Verfügbarkeit ab? Sie hängt davon ab, welche Instrumente entwickelt wurden und hier gibt es unzählige Einflussfaktoren:
      • Das relevante Phänomen muss im Verantwortungsbereich der Pflege liegen und auch in der Pflege handlungsrelevant sein. Aus professionstheoretischen Überlegungen ist es deshalb zweifelhaft, ob Pflegende Assessments vornehmen sollten, die dann von andere Berufsgruppen (z.B. Mediziner) genutzt werden.
      • Die Entwicklung von Assessment-Instrumenten hängt weiterhin von der Bedeutsamkeit des Zielorbjektes für die Pflege ab. Dies wird durch Mainstreams beeinflusst. Zur Zeit boomt in Deutschland die Entwicklung von Risikoskalen, während Assessmentinstrumente zur Lebenszufriedenheit, zum Übelkeitsassessmet oder zur Beweglichkeit Mangelware sind.
      • Weiterhin sind Entwicklungen auch an Drittmittel gebunden. Auch hier bestimmen Mainstreams die Entwicklung. Nicht immer wird dabei die Bedürftigkeit der Pflegenden und der Patienten im Auge behalten. Da die Entwicklung entsprechender Instrumente erst am Anfang steht, muss innerhalb der Pflegewissenschaft auch eine Diskussion über die Entwicklungslinie der nächsten Jahre stattfinden. Dies ist auch aus ethischen Gründen notwendig. Assessmentverfahren dürfen nicht ad hoc und nach Forschungsinteresse entstehen, sondern aus der Grundfrage heraus: Welche Instrumente sind im Hinblick auf das Wohl des Patienten als erstes notwendig? Eine forschungsethische Debatte über die Bedürftigkeit findet derzeit nicht statt. So wurden Ressourcen zur Entwicklung einer „Bettpfannen-Bequemlichkeitsskala“ genutzt, aber ein deutschsprachiges Assessment zum Obstipationsrisiko sucht man vergeblich.
  • Ökonomie: Standardisierte Verfahren konkurrieren mit der intuitiven Einschätzung, die maßgeblich von der Expertise der Pflegenden bestimmt wird. Im Gegensatz zum hermeneutischen Fallverstehen ist die Anwendung von Assessments mit Aufwand (Zeit und Personal) verbunden. Es muss daher geprüft werden, welche Kosten und welcher Nutzen mit dem einen oder anderen Verfahren verbunden sind.

    Dies lässt sich mit folgender Metapher verdeutlichen: Wenn eine Zierpflanze erkrankt, dann haben wir einen Verdacht, was ihr fehlt und man wird entsprechende Gegenmaßnahmen (Wasser, Dünger) einleiten. Wenn wir nicht eine herausragende Expertise haben, können wir nicht sicher sein, ob diese Maßnahmen auch zum Erfolg führen wird. Echte Experten können anhand von festgelegten Kriterien bestimmen, was der Pflanze fehlt und notfalls weitere Tests (z.B. Bodenanalysen) durchführen. Ob man nun ein solches aufwändige Assessment-Verfahren (z.B. Bodenanalysen) Sinn macht, hängt von folgenden Faktoren:
      • Kosten des Assessments (Entwicklungsaufwand, Zeit zur Durchführung)
      • Kosten einer Fehldiagnose. Bei wertvollen Pflanzen kann man sich keine intuitiven Versuche erlauben, daher will man mit hoher Sicherheit die Ursache wissen und folglich ist man auch bereit, teuere Assessments zu akzeptieren.
      • Die Eignung des Assessments um die genaue Ursache zu finden (Spezifität und Sensitivität)
      • Die Wahrscheinlichkeit mit der bestimmte schwerwiegende Ursachen vorliegen (sog. Basisrate).

Eine Entscheidung für ein Assessment-Instrument muss daher auch die Kosten und Nutzen berücksichtigen. Spezifität und Sensitivität geben nur die Wahrscheinlichkeiten richtiger Diagnosen an, sagen aber nichts über die möglichen Kosten von Fehlentscheidungen aus.

Eine Kompromisslösung stellen sukzessive Assessements dar. Hierzu zählen auch sogenannte Screening-Methoden. Hierbei werden zunächst Diagnosen gestellt, die einen ersten Verdachtmoment liefern und erst bei Überschreitung eines Grenzwertes werden weitere aufwändiger Assessments durchgeführt. Es handelt sich also um eine Schnelldiagnostik, die zur vertiefenden Diagnostik fphren kann. Das Screening ist dabei meist mit einer höheren Fehlerwahrscheinlichkeit bei geringen Kosten (Testkosten, Aufwand) verbunden.

Um die Anzahl an Prüfkriterien (Itmes) in einem Assessmentverfahren möglichst gering zu halten sollten statistische Methoden der Itemselektion zur Anwendung kommen.

Ziel muss stets ein ökonomisches Verfahren sein, dass dennoch die relevanten Pflegephänomene oder Risiken genau erfasst.

Stand: 01.08.2006 by. B.R.