Articles

MeasuringU: Was ist eine starke Korrelation?

Rauchen verursacht Krebs.Warnungen auf Zigarettenetiketten und von Gesundheitsorganisationen machen alle die klare Aussage, dass Rauchen Krebs verursacht.

Aber woher wissen wir das?

Rauchen geht Krebs voraus (meistens Lungenkrebs). Menschen, die Zigaretten rauchen, neigen dazu, Lungen- und andere Krebsarten mehr zu bekommen als diejenigen, die nicht rauchen. Wir sagen, dass Rauchen mit Krebs korreliert. Schließen Sie andere Ursachen sorgfältig aus, und Sie haben die Zutaten, um die Ursache zu begründen.

Korrelation ist ein notwendiger, aber nicht ausreichender Bestandteil der Kausalität. Oder wie Sie zweifellos gehört haben: Korrelation ist nicht gleich Kausalität. Eine Korrelation quantifiziert die Assoziation zwischen zwei Dingen. Aber Korrelation muss nicht beweisen, dass Kausalität nützlich ist. Oft ist es sehr hilfreich, nur zu wissen, dass eine Sache etwas anderem vorausgeht oder vorhersagt. Wenn Sie beispielsweise wissen, dass die Leistung der Bewerber bei Arbeitsproben ihre zukünftige Arbeitsleistung vorhersagt, können Manager die richtigen Kandidaten einstellen. Wir würden sagen, dass die Leistung von Arbeitsproben mit der Arbeitsleistung korreliert (vorhersagt), obwohl Arbeitsproben keine bessere Arbeitsleistung verursachen.Eine gängige (aber nicht die einzige) Methode, eine Korrelation zu berechnen, ist die Pearson-Korrelation (bezeichnet mit einem r), die von Karl Pearson in den späten 1880er Jahren berühmt (aber nicht abgeleitet) wurde. Es reicht von einer perfekten positiven Korrelation (+1) bis zu einer perfekten negativen Korrelation (-1) oder keiner Korrelation (r = 0). In der Praxis ist eine perfekte Korrelation von 1 eine vollständig redundante Information, so dass es unwahrscheinlich ist, dass Sie darauf stoßen.

Der Korrelationskoeffizient hat seine Mängel und wird nicht als „robust“ gegen Dinge wie Nicht-Normalität, Nichtlinearität, unterschiedliche Varianzen, Einfluss von Ausreißern und einen begrenzten Wertebereich angesehen. Mängel machen es jedoch nicht nutzlos oder tödlich fehlerhaft. Folglich wird es in vielen wissenschaftlichen Disziplinen häufig verwendet, um die Stärke von Beziehungen zu beschreiben, da es immer noch oft aussagekräftig ist. Es ist eine Art gemeinsame Sprache der Assoziation, da Korrelationen für viele Kennzahlen berechnet werden können (z. B. zwischen zwei binären Kennzahlen oder Rängen).Zurück zum Rauchen und Krebs Verbindung, eine Schätzung aus einer 25-jährigen Studie über die Korrelation zwischen Rauchen und Lungenkrebs in den USA ist r = .08 -eine Korrelation kaum über 0. Sie haben vielleicht einen lebenslangen Raucher gekannt, der keinen Krebs bekommen hat — was den Punkt (und die geringe Größe der Korrelation) veranschaulicht, dass nicht jeder, der raucht (sogar viel), Krebs bekommt.Schätzungen zufolge erkranken 75% -85% der lebenslangen starken Raucher NICHT an Krebs. Tatsächlich sind 80% -90% der Menschen, die an Lungenkrebs erkranken, keine Raucher oder haben nie geraucht!

Aber eine Studie ist selten das letzte Wort zu einem Befund und schon gar keine Korrelation. Es gibt viele Möglichkeiten, den Zusammenhang zwischen Rauchen und Krebs zu messen, und die Korrelation variiert je nachdem, wer wie gemessen wird.

In einer anderen Studie über Entwicklungsländer ist beispielsweise die Korrelation zwischen dem Prozentsatz der erwachsenen Bevölkerung, die raucht, und der Lebenserwartung r = .40, Das ist sicherlich größer als die .08 aus der US-Studie, aber es ist weit entfernt von der nahezu perfekten Korrelation, die konventionelle Weisheit und Warnhinweise implizieren würden.

Korrelationen sind zwar nicht unbedingt der beste Weg, um das mit Aktivitäten verbundene Risiko zu beschreiben, aber sie sind dennoch hilfreich, um die Beziehung zu verstehen. Wichtig ist jedoch, dass das Verständnis der Details, auf denen die Korrelation beruht, und das Verständnis ihrer Konsequenzen die entscheidenden Schritte sind, um Korrelationen in die richtige Perspektive zu rücken.

Gültigkeit vs. Während Sie wahrscheinlich nicht die öffentliche Gesundheit studieren, sind Ihr berufliches und persönliches Leben mit Korrelationen gefüllt, die zwei Dinge verbinden (zum Beispiel Rauchen und Krebs, Testergebnisse und Schulleistungen oder Kaffee trinken und verbesserte Gesundheit). Diese Korrelationen werden Validitätskorrelation genannt. Gültigkeit bezieht sich darauf, ob etwas misst, was es messen will. Wir würden sagen, dass eine Reihe von Interviewfragen, die die Arbeitsleistung vorhersagen, gültig ist. Oder ein Usability-Fragebogen ist gültig, wenn er mit der Erledigung von Aufgaben an einem Produkt korreliert. Die Stärke der Korrelation spricht für die Stärke des Gültigkeitsanspruchs.

Bei MeasuringU schreiben wir ausführlich über unsere eigene und die Forschung anderer und zitieren oft Korrelationskoeffizienten. Allerdings sind nicht alle Korrelationen gleich und nicht alle sind Validitätskorrelationen. Eine weitere häufige Korrelation ist die Zuverlässigkeitskorrelation (die Konsistenz der Antworten) und Korrelationen, die von derselben Stichprobe von Teilnehmern stammen (Monomethodenkorrelationen genannt). Monomethodische Korrelationen sind einfacher zu sammeln (Sie benötigen nur eine Stichprobe von Daten), aber da die Daten von denselben Teilnehmern stammen, neigen die Korrelationen dazu, aufgeblasen zu werden. Zuverlässigkeitskorrelationen werden auch häufig in Peer-Review-Papieren berichtet und sind in der Regel auch viel höher, oft r > .7. Die Verfügbarkeit dieser höheren Korrelationen kann zu der Idee beitragen, dass Korrelationen wie r =.3 oder sogar r = .1 bedeutungslos.

Zum Beispiel haben wir festgestellt, dass die Test-Retest-Zuverlässigkeit des Net Promoter Score r = ist .7. Beispiele für eine monomethodische Korrelation sind die Korrelation zwischen SUS und NPS (r = .62), zwischen einzelnen SUS-Items und dem gesamten SUS-Score (r = .9) und zwischen dem SUS und dem UMUX-Lite (r = .83), die alle von derselben Stichprobe und denselben Teilnehmern gesammelt wurden. Dies sind auch legitime Validitätskorrelationen (Concurrent Validity genannt), die jedoch tendenziell höher sind, da die Kriterium- und Vorhersagewerte aus derselben Quelle stammen.

Gültigkeitskorrelationskoeffizienten interpretieren

Viele Felder haben ihre eigene Konvention darüber, was eine starke oder schwache Korrelation ausmacht. In den Verhaltenswissenschaften ist die Konvention (weitgehend von Cohen etabliert), dass Korrelationen (als Maß für die Effektgröße, die Validitätskorrelationen einschließt) oben stehen .5 sind „groß“, um .3 sind „medium,“ und .10 und darunter sind „klein.“Mit der Cohen-Konvention ist der Zusammenhang zwischen Rauchen und Lungenkrebs in einer Studie schwach und in der anderen vielleicht mittel. Aber auch innerhalb der Verhaltenswissenschaften ist der Kontext wichtig. Selbst eine kleine Korrelation mit einem Folgeergebnis (Wirksamkeit der Psychotherapie) kann immer noch Lebens- und Todesfolgen haben.Die Quadrierung der Korrelation (genannt der Bestimmungskoeffizient) ist eine weitere gängige Praxis der Interpretation der Korrelation (und der Effektgröße), kann aber auch die Stärke einer Beziehung zwischen Variablen unterschätzen, und die Verwendung des Standards r wird oft bevorzugt. Wir werden in einem zukünftigen Artikel weitere Möglichkeiten zur Interpretation von Korrelationen untersuchen.

Ich habe Validitätskorrelationen über mehrere Disziplinen hinweg aus mehreren veröffentlichten Artikeln (viele Metaanalysen) gesammelt, die Studien zu medizinischen und psychologischen Auswirkungen, Arbeitsleistung, College-Leistung und unserer eigenen Forschung zum Kunden- und Benutzerverhalten enthalten Kontext zu Validitätskorrelationen. Viele der Studien in der Tabelle stammen aus dem einflussreichen Papier von Meyer et al. (2001).

Description Correlation
Aspirin and reduced risk of heart attack 0.02
Ever Smoking and Lung Cancer after 25 years 0.08
College Grades and Job Performance 0.16
Years of Experience & Job Performance 0.18
SAT-Scores und kumulative GPA an der University of Pennsylvania für (Weiß & Asiatische Studenten) 0.20
HS-Klassenrang und kumulative GPA an der University of Pennsylvania für (Weiß & Asiatische Studenten) 0.26
Psychotherapie und anschließendes Wohlbefinden 0,32
Raw Net Promoter Scores und zukünftiges Umsatzwachstum in 14 Branchen 0,35
GRE Quantitatives Denken und MBA GPA 0.37
Unstrukturierte Vorstellungsgespräche und Arbeitsleistung 0.38
Viagra und verbesserte sexuelle Funktion 0.38
Größe und Gewicht von 639 bangladeschischen Studenten (Durchschnitt von Männern und Frauen) 0.38
Vergangenes Verhalten als Prädiktor für zukünftiges Verhalten 0.39
% der erwachsenen Bevölkerung, die raucht und die Lebenserwartung in Entwicklungsländern 0.40
College-Aufnahmeprüfung und College-GPA im Jemen 0.41
SAT-Scores und kumulativer GPA von Dartmouth-Studenten 0.43
Größe und Gewicht in den USA von 16,948-Teilnehmern 0.44
NPS-Ränge und zukünftiges Umsatzwachstum in 14-Branchen 0.44
Rorschach PRS Scores und anschließende Psychotherapie Ergebnis 0.44
Absicht, Technologie und tatsächliche Nutzung zu verwenden 0.50
Allgemeine geistige Fähigkeiten und Arbeitsleistung 0.51
Kaufabsicht und Einkaufsmetaanalyse (60 Studien) 0,53
Arbeitsprobe und Arbeitsleistung 0,54
PURE Scores Von Expert und SUPR-Q Scores von Usern 0,55
PURE Scores Von Expert und SEQ Bewertungen von Benutzern 0.67
Wahrscheinlichkeit zu empfehlen und Rate empfehlen (Aktuelle Empfehlung) 0.69
SUS-Scores und zukünftiges Software-Umsatzwachstum (ausgewählte Produkte) 0.74
Kaufabsicht und Kaufrate für neue Produkte (n=18) 0,75
SUPR-Q-Quintile und 90-Tage-Kaufraten 0,78
Empfehlungswahrscheinlichkeit und Empfehlungsrate (letzter Kauf) 0,79
PURE Scores von Experten und Task Time Scores von Benutzern 0,88
Genauigkeit des Pulsoximeters und der Sauerstoffsättigung 0,89
Wahrscheinlichkeit der Empfehlung und gemeldete Empfehlungsrate (Marken) 0.90

Medizinische Ergebnisse

Der erste Eintrag in Tabelle 1 zeigt beispielsweise, dass die Korrelation zwischen der Einnahme von Aspirin und der Verringerung des Herzinfarktrisikos r = .02. Dies ist die kleinste Korrelation in der Tabelle und kaum über 0. Dennoch ist Aspirin seit Jahrzehnten ein fester Bestandteil der Empfehlungen für die Herzgesundheit, obwohl es jetzt in Frage gestellt wird.

Die Blockbuster-Droge (und TV-Werbung regelmäßig) Viagra hat eine Korrelation von r = .38 mit „verbesserte Leistung.“ Psychotherapie hat eine Korrelation von „nur“ r = .32 über zukünftiges Wohlbefinden. Größe und Gewicht, die traditionell als stark korreliert angesehen werden, haben eine Korrelation von r = .44 wenn objektiv in den USA oder r = gemessen .38 aus einer bangladeschischen Stichprobe. Das ist nicht so anders als die Gültigkeit von Tintenflecken in einer Studie. Die Verbindung zwischen den „Pulse-ox“ -Sensoren, die Sie beim Arzt am Finger anbringen, und dem tatsächlichen Sauerstoffgehalt in Ihrem Blut ist r = .89. All dies kann im Zusammenhang mit den beiden oben diskutierten Rauchkorrelationen gesehen werden, r = .08 und r = .40.

Arbeitsleistung

Tabelle 1 zeigt Korrelationen für mehrere Indikatoren der Arbeitsleistung, einschließlich Hochschulnoten (r = .16), jahrelange Erfahrung (r = .18), unstrukturierte Interviews (r=.38), allgemeine geistige Fähigkeiten (r = .51); Der beste Prädiktor für die Arbeitsleistung sind Arbeitsproben, r =.54. Unter Funktionsweise von Google erfahren Sie, wie Google seine Einstellungspraktiken auf der Grundlage dieser Daten angepasst hat.

Hochschulleistung

Wie beim Rauchen wurde der Zusammenhang zwischen Eignungstests und Leistungen eingehend untersucht. Tabelle 1 enthält auch einige Beispiele für Korrelationen zwischen standardisierten Tests und der tatsächlichen College-Leistung: für weiße und asiatische Studenten an der Ivy League University of Pennsylvania (Beleg = .20), College-GPA für Studenten im Jemen (r = .41), GRE quantitative Reasoning und MBA GPAs (r = .37) von 10 staatlichen Universitäten in Florida, und SAT-Scores und kumulative GPA von der Ivy League Dartmouth College für alle Studenten (r = .43).

Kunden- und Nutzerverhalten

Ich habe mehrere Validitätskorrelationen aus der Arbeit von MeasuringU aufgenommen, einschließlich der Korrelation zwischen Empfehlungsabsicht und 90-Tage-Empfehlungsraten für den letzten Kauf (r = .79), SUS-Scores und Wachstum der Softwareindustrie (r = .74), den Net Promoter Score und Wachstumskennzahlen in 14 Branchen (r = .35), Evaluatoren reine Scores und Benutzer Task-Ease Scores (r = .67). Ähnliche Korrelationen gibt es auch zwischen veröffentlichten Studien zur Kaufabsicht der Menschen und den Kaufraten (r = .53) und Nutzungsabsicht und tatsächliche Nutzung (r = .50) wie wir mit dem TAM gesehen haben.

Die Lektion hier ist, dass der Wert einiger Korrelationen zwar gering ist, die Konsequenzen jedoch nicht ignoriert werden können. Und das macht es so schwierig, allgemeine Regeln für Korrelationen anzuwenden. Meine Hoffnung ist, dass die Tabelle der Validitätskorrelationen hier aus unterschiedlichen Bereichen anderen helfen wird, kritisch über den Aufwand zum Sammeln und die Auswirkungen jeder Assoziation nachzudenken.

Zusammenfassung und Takeaways

Diese Diskussion über die Korrelation als Assoziationsmaß und eine Analyse der Korrelationskoeffizienten ergab:

Korrelationen quantifizieren Beziehungen. Die Pearson-Korrelation r ist die gebräuchlichste (aber nicht einzige) Methode, um eine Beziehung zwischen Variablen zu beschreiben, und ist eine gängige Sprache, um die Größe von Effekten disziplinübergreifend zu beschreiben.

Validitäts- und Zuverlässigkeitskoeffizienten unterscheiden sich. Nicht alle Korrelationen sind gleich. Korrelationen, die aus derselben Probe (monomethod) oder Zuverlässigkeitskorrelationen (unter Verwendung desselben Maßes) erhalten werden, sind häufig höher r (r > .7) und kann zu einem unrealistisch hohen Korrelationsbalken führen.

Korrelationen können schwach, aber wirkungsvoll sein. Selbst numerisch „kleine“ Korrelationen sind valide und aussagekräftig, wenn die Wirkungszusammenhänge (z. B. gesundheitliche Folgen) sowie Aufwand und Kosten der Messung berücksichtigt werden. Die Korrelationen zwischen Rauchen, Aspirin und sogar Psychotherapie sind gute Beispiele dafür, was grob als schwache bis bescheidene Korrelationen interpretiert werden kann, bei denen das Ergebnis jedoch durchaus Konsequenzen hat.

Setzen Sie keine unrealistisch hohen Messlatten für die Gültigkeit. Das Verständnis des Kontexts einer Korrelation hilft, Bedeutung zu vermitteln. Wenn etwas leicht und kostengünstig gemessen werden kann, aber auch nur eine bescheidene Fähigkeit hat, ein wirkungsvolles Ergebnis vorherzusagen (z. B. Unternehmensleistung, Hochschulleistung, Lebenserwartung oder Arbeitsleistung), kann es wertvoll sein. Die „niedrige“ Korrelation zwischen Rauchen und Krebs (Beleg = .08) ist eine gute Erinnerung daran.