Gütekriterien von Messinstrumenten

Aus Familienwortschatz
Zur Navigation springen Zur Suche springen
Beurteilung: Dieser Artikel bedarf dringend einer Überarbeitung. Falls Du etwas zu diesem Thema weißt, dann sei mutig, und beteilige dich daran!




Das Ziel einer Messung ist es korrekte Ergebnisse zu erhalten:

  • Messungen sind jedoch mit Fehlern behaftet –
  • beobachteter Wert = wahrer Wert + Fehler

Messfehler

  1. zufälliger Fehler (random error) z.B. Waage schwankt
  2. systematischer Fehler z.B. Waage zeigt immer 10g zu viel


Reliabilität = Reproduzierbarkeit/ Genauigkeit
Validität = Gültigkeit (messe ich das was ich messen will?)

Datei:Validereliabel01.jpg

Ein valides Messinstrument muss reliabel sein ! (umgekehrt nicht)


Reliabilität

Reliabilität bezeichnet Zuverlässigkeit und Messgenauigkeit. Reliabel ist ein Instrument dann, wenn es bei einem normal gleichbleibenden Verhalten,gleiche oder ähnliche Ergebnisse liefert. Extrembeispiel: Eine Uhr für die der Tag mal 24 Stunden und mal 25 hat, ist nicht reliabel.

Test-Retest-Reliabilität

Die Test-Retest-Reliabilität wird in der Literatur oft auch als Stabilität bezeichnet. Sie beschreibt das Ausmaß der Übereinstimmung der Rangfolge bei einer wiederholten Anwendung der Instrumente (Methoden) bei der Stichprobe.

  • Ausmaß der Übereinstimmung bei einer wiederholten Anwendung des Instruments bei der selben Stichprobe und ansonsten gleichen Bedingungen Test nach einiger Zeit wiederholen,
  • setzt stabiles Phänomen voraus

Die Größe dieser Übereinstimmung lässt sich durch die Berechnung eines Korrelationskoeffizienten quantifizieren.

  • Korrelation sagt nichts aus, wenn ein systematischer Fehler vorliegt

Interrater-Reliabilität

Unter Interrater-Reliabilität versteht man die Höhe der Übereinstimmungen der Einschätzungsergebnisse bei unterschiedlichen Beobachtern bzw. bei unterschiedlichen "Testanwendern" (Rater).

Handelt es sich um zwei unterschiedliche Beobachter, die gleichzeitig mehrere Probanden einschätzen, so lässt sich die Interrater-Reliabilität mittels Korrelationskoeffizienten errechnen. Dies gilt primär für ordinale und metrische Daten Bei mehr als zwei Beobachtern steht der Intra-Class-Korrelationskoeffizient zur Verfügung.

Bei nominalen Daten steht der sog. Kappa-Koeffizient zur Verfügung



Interne Konsistenz

Bei der Internen Konsistenz bzw der Homogenität steht der Aspekt im Vordergrund, wie gleichmäßig und reproduzierbar die einzelnen Teile oder Items des Erhebungsinstruments zum Gesamtergebnis beitragen. Um die Interne Konsistenz eines Assessmentinstruments zu bestimmen, bieten sich unterschiedliche Maßzahlen an.

    • Interne Konsistenz nur bei eindimensionalen Tests! Werden gezielt mehrere Dimensionen erfasst, ohne dass diese jedoch zu einer Gesamtsumme addiert werden, muss die interne Konsistenz für jede Dimension berechnet werden.
    • Von einer hohen internen Konsistenz lässt sich nicht automatisch auch auf eine hohe Interrater- oder Test-Retest-Reliabilität schließen.
    • split-half-reliability = Fragebogen teilen, wenn Items homogen sind müssen die beiden geteilten eine hohe Korrelation aufweisen.
      • Je weniger Items desto schlechter ist die Korrelation;
      • Cronbachs Alpha rechnet alle Arten von split-half aus (SPSS), mittelt diese und liefert ein Gesamtergebnis

Reliabilitätsbestimmung ist einfacher als die Bestimmung der Validität. Ist ein Instrument nicht reliabel kann es auch nicht valide sein.

Validität

Die Validität eines Tests gibt an, wie gut der Test in der Lage ist genau das zu messen, was er zu messen vorgibt (ähneln Indizienbeweis) Ein Instrument ist valide, wenn es das misst was es messen soll. Ein Geschwindigkeitsmesser der die Temperatur misst ist daher nicht valide.

Validität = Gültigkeit ("Wie sich vom Testscore auf das Zielmerkmal schliessen lässt")

Es gibt keine absolut gültigen Tests, jeder Validierungsversuch ist von theoretischen und methodischen Einschränkungen betroffen. Hängt in der Regel von der konkreten Anwendersituation ab. Auch ein besonders genaues und zuverlässiges Instrument wird nur in bestimmten Situationen verlässliche Ergebnisse liefern.


Inhaltsvalidität

Bei der Inhaltsvalidität (content validity) wird von Experten bewertet, inwieweit bzw wie gut die einzelnen Items (Fragen) das zu untersuchende Konstrukt abdecken.

  • wird auch innere Validität genannt .
  • scheint das Instrument das messen zu können, was es vorgibt?
    • Überprüft jedes Item des Instruments. Experten sollen bewerten (content validity)
    • face-validity (Augenscheinvalidität): sieht das Instrument gut aus?
      • Hat es mit dem was ich messen will zu tun?
      • Eine hohe face-validity ist oft nicht erwünscht -> s. soziale Wünschbarkeit

Kriteriumsvalidität

Bei der Kriteriumsvalidität unterscheidet man Übereinstimmungsvalidität (concurrend validity)und Vorhersagevalidität (predictive validity).

  • das Instrument mit einem Außenkriterium testen


Übereinstimmungsvalidität
  • concurrent-validity (Übereinstimmungsvalidität): gleichzeitige Messung (und Vergleich) z.B. mit Goldstandard,schon bewährten Verfahren, Tests...
    • (=über alle Zweifel erhabenes aber zu aufwendiges Instrument z.B. Leberbiopsie um Alkoholiker zu erkennen)


Vorhersagevalidität
  • predictive-validity (Vorhersagevalidität): vorhersagend;
  • ist das Verhältnis von Risiko + krank zu allen Risiko bzw. von nicht Risiko + nicht krank zu allen nicht Risiko
    • testen und abwarten,
    • kaum durchführbar

Konstruktvalidität

  • Konstruktvalidität: testet gleichzeitig das Theoriekonstrukt um das Instrument herum
  • inwieweit werden theoretische Konstrukte und Merkmale berücksichtigt ?
  • sind die Theorien veraltet/falsch ?!
    • Kontrastgruppeneinsatz: Gruppen bei denen man das Ergebnis kennt
    • Hypothesentesteinsatz: Hypothese überprüfen (Konstruktvalidität umso überzeugender, je mehr Hypothesen einer Überprüfung standhalten)

Sensitivität und Spezifität

Sensitivität beschreibt die Fähigkeit der Skala Risikopatienten zu erkennen.
  • Unter Sensitivität eines diagnostischen Tests versteht man die Fähigkeit, tatsächlich Kranke als krank zu erkennen.
Spezifität beschreibt die Fähigkeit der Skala risikofreie Patienten zu erkennen.

Die Spezifität bezeichnet die Fähigkeit, tatsächlich Gesunde als gesund zu identifizieren.

  • Werden meist in % angegeben (100% ist perfekt)
  • Werden am „Goldstandard“ bemessen
    • es gibt keinen Goldstandard für Risiko!


Tabelle 1, Beispiel 1 Tatsächlicher Sachverhalt
positiv (krank) negativ (gesund) Gesamt
Testergebnis positiv (krank) richtig positiv
95
falsch positiv
30

125
negativ (gesund) falsch negativ
5
richtig negativ
270

275
100 300 400


  • Prädiktive Wert des positiven Tests: Wie viele Risikopatienten hatten tatsächlich eine Erkrankung?
  • Prädiktive Wert des negativen Tests: Wie viele ohne Risiko blieben tatsächlich gesund?
  • Hohe Sensitivität und niedrige Spezifität = Skala neigt zur Überschätzung
  • je niedriger die Prävalenz desto genauer muss das Instrument messen!
  • Es besteht ein Zusammenhang zwischen Prävalenz und prädiktiven Wert des positiven Tests:
    • je niedriger die Prävalenz desto niedriger der pWpT

Cutt-off-Punkt

Der „Cut-Off-Punkt“ trennt zwischen (Gefährdungs-) Kategorien bzw. positiven und negativen Testergebnissen. Versucht man durch eine Veränderung des „Cut-Off-Punktes“ die Sensitivität zu erhöhen (d.h. noch weniger Kranke zu übersehen), so geht das nur auf Kosten der Spezifität (d.h. es werden mehr Gesunde fälschlich als krank eingestuft)

siehe auch