Articles

MeasuringU: Hvad er en stærk korrelation?

rygning forårsager kræft.

advarsler på cigaretetiketter og fra sundhedsorganisationer gør alle den klare Erklæring om, at rygning forårsager kræft.

men hvordan ved vi det?

rygning går forud for kræft (for det meste lungekræft). Folk, der ryger cigaretter, har tendens til at få lunger og andre kræftformer mere end dem, der ikke ryger. Vi siger, at rygning er korreleret med kræft. Omhyggeligt udelukke andre årsager, og du har ingredienserne til at gøre sagen for årsagssammenhæng.

korrelation er en nødvendig, men ikke tilstrækkelig ingrediens til årsagssammenhæng. Eller som du uden tvivl har hørt: korrelation svarer ikke til årsagssammenhæng. En korrelation kvantificerer sammenhængen mellem to ting. Men korrelation behøver ikke at bevise årsagssammenhæng for at være nyttig. Ofte er det meget nyttigt at vide, at en ting går forud for eller forudsiger noget andet. For eksempel ved at vide, at jobkandidaternes præstationer på arbejdsprøver forudsiger deres fremtidige jobpræstation, hjælper ledere med at ansætte de rigtige kandidater. Vi vil sige, at arbejdsprøvepræstation korrelerer med (forudsiger) arbejdsydelse, selvom arbejdsprøver ikke giver bedre arbejdsydelse.

en almindelig (men ikke den eneste) måde at beregne en korrelation på er Pearson-korrelationen (betegnet med en r), gjort berømt (men ikke afledt) af Karl Pearson i slutningen af 1880 ‘ erne. det spænder fra en perfekt positiv korrelation (+1) til en perfekt negativ korrelation (-1) eller ingen korrelation (r = 0). I praksis er en perfekt sammenhæng på 1 fuldstændig overflødig information, så det er usandsynligt, at du støder på det.korrelationskoefficienten har sine mangler og betragtes ikke som “robust” mod ting som ikke-normalitet, ikke-linearitet, forskellige afvigelser, indflydelse af outliers og et begrænset værdiområde. Mangler gør det dog ikke ubrugeligt eller dødeligt mangelfuldt. Derfor er det meget brugt på tværs af mange videnskabelige discipliner til at beskrive styrken af relationer, fordi det stadig ofte er meningsfuldt. Det er en slags fælles foreningssprog, da korrelationer kan beregnes på mange mål (for eksempel mellem to binære mål eller rækker).

Tilbage til rygning og kræftforbindelse er et skøn fra en 25-årig undersøgelse af sammenhængen mellem rygning og lungekræft i USA r = .08-en korrelation knap over 0. Du har måske kendt en livslang ryger, der ikke fik kræft—illustrerer punktet (og den lave størrelse af korrelationen), at ikke alle, der ryger (selv meget) får kræft.

efter nogle skøn får 75% -85% af livslange tunge rygere ikke kræft. Faktisk er 80% -90% af mennesker, der får lungekræft, ikke rygere eller aldrig røget!

men en undersøgelse er sjældent det sidste ord på et fund og bestemt ikke en sammenhæng. Der er mange måder at måle rygning kræft link og korrelationen varierer nogle afhængigt af hvem der måles og hvordan.

for eksempel i en anden undersøgelse af udviklingslande er sammenhængen mellem procentdelen af den voksne befolkning, der ryger og forventet levealder, r = .40, hvilket bestemt er større end .08 fra den amerikanske undersøgelse, men det er langt fra den næsten perfekte korrelation konventionelle visdom og advarselsetiketter ville indebære.mens korrelationer ikke nødvendigvis er den bedste måde at beskrive risikoen forbundet med aktiviteter, er det stadig nyttigt at forstå forholdet. Men det er vigtigt at forstå de detaljer, som korrelationen blev dannet på, og forstå deres konsekvenser, er de kritiske trin i at sætte korrelationer i perspektiv.

gyldighed vs. Pålidelighedskorrelationer

mens du sandsynligvis ikke studerer folkesundhed, er dit professionelle og personlige liv fyldt med sammenhænge, der forbinder to ting (for eksempel rygning og kræft, testresultater og skolepræstationer eller drikker kaffe og forbedret sundhed). Disse korrelationer kaldes validitetskorrelation. Gyldighed henviser til, om noget måler, hvad det har til hensigt at måle. Vi vil sige, at et sæt samtalespørgsmål, der forudsiger jobpræstation, er gyldigt. Eller et brugervenlighedsspørgeskema er gyldigt, hvis det korrelerer med opgaveafslutning på et produkt. Styrken af korrelationen taler til styrken af gyldighedskravet.

på MeasuringU skriver vi udførligt om vores egen og andres forskning og citerer ofte korrelationskoefficienter. Imidlertid er ikke alle korrelationer skabt ens, og ikke alle er gyldighedskorrelationer. En anden almindelig korrelation er pålidelighedskorrelationen (konsistensen af svar) og korrelationer, der kommer fra den samme prøve af deltagere (kaldet monomethod-korrelationer). Monomethod korrelationer er lettere at indsamle (du behøver kun en prøve af data), men fordi dataene kommer fra de samme deltagere, har korrelationerne tendens til at blive oppustet. Pålidelighedskorrelationer har også en tendens til at være både almindeligt rapporteret i fagfællebedømte papirer og er også typisk meget højere, ofte r > .7. Tilgængeligheden af disse højere korrelationer kan bidrage til ideen om, at korrelationer som r =.3 eller endda r = .1 er meningsløst.

for eksempel fandt vi test-retest pålideligheden af Net Promoter Score er r = .7. Eksempler på en monomethod korrelation er korrelationen mellem SUS og NPS (r = .62), mellem individuelle sus-elementer og den samlede SUS-score (r = .9), og mellem SUS og UMB-Lite (r=.83), alle indsamlet fra samme prøve og deltagere. Disse er også legitime gyldighedskorrelationer (kaldet samtidig gyldighed), men har tendens til at være højere, fordi kriteriet og forudsigelsesværdierne stammer fra den samme kilde.

fortolkning af Gyldighedskorrelationskoefficienter

mange felter har deres egen konvention om, hvad der udgør en stærk eller svag korrelation. I adfærdsvidenskab konventionen (stort set oprettet af Cohen) er det korrelationer (som et mål for effektstørrelse, som inkluderer gyldighedskorrelationer) ovenfor .5 er “store” omkring .3 er “medium” og .10 og derunder er ” små.”

Ved hjælp af Cohens konvention er forbindelsen mellem rygning og lungekræft dog svag i den ene undersøgelse og måske medium i den anden. Men selv inden for adfærdsvidenskaben betyder kontekst noget. Selv en lille sammenhæng med et følgeresultat (effektivitet af psykoterapi) kan stadig have konsekvenser for liv og død.

kvadrering af korrelationen (kaldet bestemmelseskoefficienten) er en anden almindelig praksis med at fortolke korrelationen (og effektstørrelse), men kan også undervurdere styrken af et forhold mellem variabler, og brug af standard r foretrækkes ofte. Vi vil undersøge flere måder at fortolke korrelationer i en fremtidig artikel.

jeg har samlet gyldighedskorrelationer på tværs af flere discipliner fra flere offentliggjorte papirer (mange metaanalyser), der inkluderer undersøgelser af medicinske og psykologiske effekter, jobpræstationer, college-præstationer og vores egen forskning i kunde-og brugeradfærd for at give kontekst til gyldighedskorrelationer. Mange af undersøgelserne i tabellen kommer fra det indflydelsesrige papir af Meyer et al. (2001).

Description Correlation
Aspirin and reduced risk of heart attack 0.02
Ever Smoking and Lung Cancer after 25 years 0.08
College Grades and Job Performance 0.16
Years of Experience & Job Performance 0.18
SAT scorer og kumulativ GPA ved University of Pennsylvania for (hvid & asiatiske studerende) 0.20
HS klasse rang og kumulativ GPA ved University of Pennsylvania for (hvid & asiatiske studerende) 0.26
psykoterapi og efterfølgende velvære 0.32
rå netpromotorresultater og fremtidig fast omsætningsvækst i 14 brancher 0.35
GRE kvantitativ begrundelse og MBA GPA 0.37
ustrukturerede jobsamtaler og jobpræstationer 0.38
Viagra og forbedret seksuel funktion 0.38
højde og vægt fra 639 bangladeshiske studerende (gennemsnit af mænd og kvinder) 0.38
tidligere adfærd som forudsigelse for fremtidig adfærd 0.39
% af den voksne befolkning, der ryger og forventet levealder i udviklingslande 0.40
College Optagelseseksamen og College GPA i Yemen 0.41
SAT-score og kumulativ GPA fra Dartmouth-studerende 0.43
højde og vægt i USA fra 16.948 deltagere 0.44
NPS rangerer og fremtidig fast omsætningsvækst i 14 brancher 0.44
Rorschach PRS scores og efterfølgende psykoterapi resultat 0.44
intention om at bruge teknologi og faktisk brug 0.50
generel mental evne og jobpræstation 0.51
køb hensigt og indkøb Meta analyse (60 undersøgelser) 0.53
arbejde prøve og Job ydeevne 0.54
rene scoringer fra ekspert og SUPR-K scoringer fra brugere 0.55
ren Score fra ekspert-og sekv-Score fra brugere 0.67
sandsynlighed for at anbefale og anbefale Sats (nylig anbefaling) 0.69
sus-score og fremtidig vækst i PROGRAMMELOMSÆTNING (udvalgte produkter) 0.74
køb hensigt og køb sats for nye produkter (n=18) 0.75
SUPR-kvintiler og 90 dages køb satser 0.78
Sandsynlighed for at anbefale og anbefale Sats (seneste køb) 0.79
ren Score fra ekspert-og opgavetidsscore fra brugere 0.88
nøjagtighed af PULSOKSIMETER og iltmætning 0.89
Sandsynlighed for at anbefale og rapporteret Anbefalingsrate (mærker) 0.90

medicinske resultater

for eksempel viser den første post i tabel 1, at sammenhængen mellem at tage aspirin og reducere risikoen for hjerteanfald er r = .02. Dette er den mindste korrelation i tabellen og knap over 0. Alligevel har aspirin været en fast bestanddel af anbefalinger til hjertesundhed i årtier, selvom det nu bliver stillet spørgsmålstegn ved.

blockbuster drug (og tv-kommerciel regelmæssig) Viagra har en sammenhæng på r = .38 med ” forbedret ydeevne.”Psykoterapi har en sammenhæng mellem” kun ” r = .32 om fremtidens velfærd. Højde og vægt, der traditionelt betragtes som stærkt korreleret, har en sammenhæng mellem r = .44 når objektivt målt i USA eller r = .38 Fra en Bangladeshisk prøve. Det er ikke så anderledes end gyldigheden af blækblotter i en undersøgelse. Forbindelsen mellem” puls-okse ” sensorer du lægger på din finger hos lægen og faktisk ilt i dit blod er r = .89. Alle disse kan ses i sammenhæng med de to rygningskorrelationer, der blev diskuteret tidligere, r = .08 og r = .40.

jobpræstation

tabel 1 viser korrelationer for flere indikatorer for jobpræstation, herunder college-karakterer (r = .16), års erfaring (r = .18), ustrukturerede samtaler (r=.38), generel mental evne (r = .51); den bedste forudsigelse for jobpræstation er arbejdsprøver, r =.54. Se, hvordan Google arbejder for en diskussion af, hvordan Google tilpassede sin ansættelsespraksis baseret på disse data.

College Performance

ligesom rygning er forbindelsen mellem egnethedsprøver og præstation blevet grundigt undersøgt. Tabel 1 indeholder også flere eksempler på sammenhænge mellem standardiseret test og faktisk college-præstation: for hvide og asiatiske studerende ved Ivy League University of Pennsylvania (r = .20), College GPA for studerende i Yemen (r = .41), GRE kvantitativ begrundelse og MBA GPA ‘ er (r = .37) Fra 10 statslige universiteter i Florida, og SAT scoringer og kumulativ GPA fra Ivy League Dartmouth College for alle studerende (r = .43).

kunde-og brugeradfærd

Jeg har inkluderet flere gyldighedskorrelationer fra det arbejde, vi har udført på MeasuringU, herunder sammenhængen mellem intent to recommend og 90 day recommend-satser for det seneste køb (r = .79), sus-score og vækst i programmelindustrien (r = .74), Net Promoter Score og vækstmålinger i 14 brancher (r=.35), evaluatorernes rene score og brugernes opgave-lette score (r = .67). Lignende sammenhænge ses også mellem offentliggjorte undersøgelser af folks hensigt om at købe og købe satser (r = .53) og hensigt om at bruge og faktisk brug (r = .50) som vi så med TAM.lektionen her er, at mens værdien af nogle korrelationer er lille, kan konsekvenserne ikke ignoreres. Og det er det, der gør generelle regler for korrelationer så vanskelige at anvende. Mit håb er, at tabellen over gyldighedskorrelationer her fra forskellige felter vil hjælpe andre med at tænke kritisk over indsatsen for at indsamle og virkningen af hver forening.

resume og grillbarer

denne diskussion om korrelationen som et mål for forening og en analyse af gyldighedskorrelationskoefficienter afsløret:

korrelationer kvantificerer forhold. Pearson-korrelationen r er den mest almindelige (men ikke kun) måde at beskrive et forhold mellem variabler og er et almindeligt sprog til at beskrive størrelsen på effekter på tværs af discipliner.

validitet og pålidelighedskoefficienter er forskellige. Ikke alle sammenhænge er skabt ens. Korrelationer opnået fra den samme prøve (monomethod) eller pålidelighedskorrelationer (ved hjælp af samme mål) er ofte højere r (r > .7) og kan føre til en urealistisk høj korrelationslinje.

korrelationer kan være svage, men effektive. Selv numerisk “små” korrelationer er både gyldige og meningsfulde, når konteksterne for påvirkning (f.eks. sundhedsmæssige konsekvenser) og indsats og omkostninger ved måling redegøres for. Rygning, aspirin og endda psykoterapikorrelationer er gode eksempler på, hvad der groft kan fortolkes som svage til beskedne korrelationer, men hvor resultatet er ret konsekvent.

Indstil ikke urealistisk høje søjler for gyldighed. At forstå sammenhængen med en sammenhæng hjælper med at give mening. Hvis noget kan måles let og til lave omkostninger, men alligevel har en beskeden evne til at forudsige et effektfuldt resultat (såsom virksomhedens præstationer, college-præstationer, forventet levealder eller jobpræstation), kan det være værdifuldt. Den” lave ” sammenhæng mellem rygning og kræft (r = .08) er en god påmindelse om dette.