MeasuringU: Vad är en stark korrelation?
rökning orsakar cancer.
varningar på cigarettmärken och från hälsoorganisationer gör alla det tydliga uttalandet att rökning orsakar cancer.
men hur vet vi?
rökning föregår cancer (mestadels lungcancer). Människor som röker cigaretter tenderar att få lung-och andra cancerformer mer än de som inte Röker. Vi säger att rökning är korrelerad med cancer. Uteslut försiktigt andra orsaker och du har ingredienserna för att göra fallet för orsakssamband.
korrelation är en nödvändig men inte tillräcklig ingrediens för orsakssamband. Eller som du säkert har hört: korrelation motsvarar inte orsakssamband. En korrelation kvantifierar sambandet mellan två saker. Men korrelation behöver inte bevisa orsakssamband för att vara användbar. Ofta bara veta en sak föregår eller förutspår något annat är till stor hjälp. Till exempel, att veta att jobbkandidaternas prestanda på arbetsprover förutspår deras framtida arbetsprestanda hjälper chefer att anställa rätt kandidater. Vi skulle säga att arbetsprovprestanda korrelerar med (förutspår) arbetsprestanda, även om arbetsprover inte orsakar bättre arbetsprestanda.
ett vanligt (men inte det enda) sättet att beräkna en korrelation är Pearson-korrelationen (betecknad med en r), känd (men inte härledd) av Karl Pearson i slutet av 1880-talet. det sträcker sig från en perfekt positiv korrelation (+1) till en perfekt negativ korrelation (-1) eller ingen korrelation (r = 0). I praktiken är en perfekt korrelation av 1 helt överflödig information, så du är osannolikt att stöta på den.
korrelationskoefficienten har sina brister och anses inte vara ”robust” mot saker som icke-normalitet, icke-linjäritet, olika avvikelser, påverkan av avvikare och ett begränsat värdeområde. Brister gör det dock inte värdelöst eller dödligt felaktigt. Följaktligen används det i stor utsträckning inom många vetenskapliga discipliner för att beskriva styrkan i relationer eftersom det fortfarande ofta är meningsfullt. Det är typ av det gemensamma föreningsspråket eftersom korrelationer kan beräknas på många mått (till exempel mellan två binära mått eller rankningar).
återgå till rökning och canceranslutning, en uppskattning från en 25-årig studie om sambandet mellan rökning och lungcancer i USA är r = .08-en korrelation knappt över 0. Du kanske har känt en livslång rökare som inte fick cancer—illustrerar punkten (och den låga storleken på korrelationen) att inte alla som röker (till och med mycket) får cancer.
enligt vissa uppskattningar får 75% -85% av livslånga tunga rökare inte cancer. Faktum är att 80% -90% av människor som får lungcancer inte är rökare eller aldrig rökt!
men en studie är sällan det sista ordet på ett konstaterande och absolut inte en korrelation. Det finns många sätt att mäta rökcancerlänken och korrelationen varierar beroende på vem som mäts och hur.
till exempel i en annan studie av utvecklingsländer är korrelationen mellan procentandelen av den vuxna befolkningen som röker och livslängden r = .40, vilket är säkert större än .08 från den amerikanska studien, men det är långt ifrån den nästan perfekta korrelationen konventionell visdom och varningsetiketter skulle innebära.
även om korrelationer inte nödvändigtvis är det bästa sättet att beskriva risken i samband med aktiviteter, är det fortfarande till hjälp för att förstå förhållandet. Men viktigare är att förstå detaljerna på vilka korrelationen bildades och förstå deras konsekvenser är de kritiska stegen för att sätta korrelationer i perspektiv.
giltighet vs. Tillförlitlighet korrelationer
medan du förmodligen inte studerar folkhälsa, är ditt professionella och personliga liv fyllt med korrelationer som kopplar samman två saker (till exempel rökning och cancer, testresultat och skolprestation eller dricker kaffe och förbättrad hälsa). Dessa korrelationer kallas validitetskorrelation. Giltighet avser om något mäter vad det avser att mäta. Vi skulle säga att en uppsättning intervjufrågor som förutsäger arbetsprestanda är giltig. Eller ett användbarhetsfrågeformulär är giltigt om det korrelerar med uppgiften slutförd på en produkt. Styrkan i korrelationen talar till styrkan i giltighetskravet.
på MeasuringU skriver vi mycket om vår egen och andras forskning och citerar ofta korrelationskoefficienter. Men inte alla korrelationer skapas lika och inte alla är giltighetskorrelationer. En annan vanlig korrelation är tillförlitlighetskorrelationen (konsistensen av svar) och korrelationer som kommer från samma urval av deltagare (kallade monometodkorrelationer). Monometodkorrelationer är lättare att samla in (du behöver bara ett urval av data) men eftersom data kommer från samma deltagare tenderar korrelationerna att blåsas upp. Pålitlighetskorrelationer tenderar också att vara både vanliga rapporterade i peer reviewed papers och är också vanligtvis mycket högre, ofta r > .7. Tillgängligheten av dessa högre korrelationer kan bidra till tanken att korrelationer som r =.3 eller till och med r = .1 är meningslöst.
till exempel fann vi att test-retest-tillförlitligheten för Net Promoter Score är r = .7. Exempel på en monometodkorrelation är korrelationen mellan SUS och NPS (r = .62), mellan enskilda sus-poster och den totala sus-poängen (r = .9), och mellan SUS och UMUX-Lite (r = .83), alla samlade från samma prov och deltagare. Dessa är också legitima validitetskorrelationer (kallas samtidig validitet) men tenderar att vara högre eftersom kriteriet och prediktionsvärdena härrör från samma källa.
tolkning av Validitetskorrelationskoefficienter
många fält har sin egen konvention om vad som utgör en stark eller svag korrelation. I beteendevetenskap konventionen (till stor del fastställd av Cohen) är det korrelationer (som ett mått på effektstorlek, vilket inkluderar giltighetskorrelationer) ovan .5 är ”stora” runt .3 är ”medium” och .10 och Nedan är ” små.”
med hjälp av Cohens konvention är kopplingen mellan rökning och lungcancer svag i en studie och kanske medium i den andra. Men även inom beteendevetenskapen är sammanhanget viktigt. Även en liten korrelation med ett följdresultat (effektivitet av psykoterapi) kan fortfarande få liv och död konsekvenser.
kvadrera korrelationen (kallad bestämningskoefficienten) är en annan vanlig praxis att tolka korrelationen (och effektstorleken) men kan också underskatta styrkan i ett förhållande mellan variabler, och att använda standarden r föredras ofta. Vi kommer att undersöka fler sätt att tolka korrelationer i en framtida artikel.
Jag har samlat validitetskorrelationer över flera discipliner från flera publicerade artiklar (många metaanalyser) som inkluderar studier om medicinska och psykologiska effekter, arbetsprestanda, högskolans prestanda och vår egen forskning om kund-och användarbeteende för att ge sammanhang till validitetskorrelationer. Många av studierna i tabellen kommer från den inflytelserika tidningen av Meyer et al. (2001).
Description | Correlation |
---|---|
Aspirin and reduced risk of heart attack | 0.02 |
Ever Smoking and Lung Cancer after 25 years | 0.08 |
College Grades and Job Performance | 0.16 |
Years of Experience & Job Performance | 0.18 |
SAT-poäng och kumulativ GPA vid University of Pennsylvania för (vit & asiatiska studenter) | 0.20 |
HS-Klassrankning och kumulativ GPA vid University of Pennsylvania för (vit & asiatiska studenter) | 0.26 |
psykoterapi och efterföljande välbefinnande | 0.32 | raw Net Promoter-poäng och framtida företagsomsättningstillväxt i 14 branscher | 0.35 | gre kvantitativ resonemang och MBA GPA | 0.37 |
ostrukturerade jobbintervjuer och arbetsprestanda | 0.38 | Viagra och förbättrad sexuell funktion | 0.38 |
höjd och vikt från 639 Bangladeshiska studenter (genomsnitt av män och kvinnor) | 0.38 |
tidigare beteende som prediktor för framtida beteende | 0.39 | % av den vuxna befolkningen som röker och förväntad livslängd i utvecklingsländer | 0.40 |
college inträdesprov och college GPA i Jemen | 0.41 |
SAT-poäng och kumulativ GPA från Dartmouth-studenter | 0.43 | höjd och vikt i USA från 16,948 deltagare | 0.44 |
NPS-rankningar och framtida Företagsomsättningstillväxt i 14 branscher | 0.44 |
Rorschach PRS-poäng och efterföljande psykoterapiresultat | 0.44 | avsikt att använda teknik och faktisk användning | 0.50 |
allmän mental förmåga och arbetsprestanda | 0.51 |
köp avsikt och inköp metaanalys (60 studier) | 0.53 | arbetsprov och arbetsprestanda | 0.54 |
rena poäng från Expert och SUPR-Q poäng från användare | 0.55 |
rena poäng från expert-och SEQ-poäng från användare | 0.67 | sannolikhet att rekommendera och rekommendera ränta (ny rekommendation) | 0.69 |
sus-poäng och framtida mjukvaruintäktstillväxt (Utvalda Produkter) | 0.74 |
Inköpsintention och Inköpshastighet för nya produkter (n=18) | 0.75 | SUPR-Q-kvintiler och 90 dagars inköpspriser | 0.78 |
sannolikhet att rekommendera och rekommendera ränta (nyligen köpt) | 0.79 |
rena poäng från expert-och Task Time-poäng från användare | 0.88 | noggrannhet för pulsoximeter och syremättnad | 0.89 |
sannolikhet att rekommendera och rapporterade rekommenderade priser (varumärken) | 0.90 |
medicinska resultat
till exempel visar den första posten i Tabell 1 att korrelationen mellan att ta aspirin och minska risken för hjärtinfarkt är r = .02. Detta är den minsta korrelationen i tabellen och knappt över 0. Ändå har aspirin varit en häftklammer för rekommendationer för hjärthälsa i årtionden, även om det nu ifrågasätts.
blockbuster-läkemedlet (och TV-kommersiellt regelbundet) Viagra har en korrelation av r = .38 med ” förbättrad prestanda.”Psykoterapi har en korrelation av” bara ” r = .32 om framtida välbefinnande. Höjd och vikt som traditionellt anses vara starkt korrelerade har en korrelation av r = .44 när objektivt mätt i USA eller r = .38 Från ett bangladeshiskt prov. Det är inte så annorlunda än giltigheten av bläckfläckar i en studie. Anslutningen mellan ”pulsox” – sensorerna du sätter på fingret hos läkaren och det faktiska syret i ditt blod är r = .89. Alla dessa kan ses i sammanhang med de två rökningskorrelationerna som diskuterats tidigare, r = .08 och r = .40.
jobbprestanda
tabell 1 visar korrelationer för flera indikatorer på jobbprestanda, inklusive högskolebetyg (r=.16), års erfarenhet (r = .18), ostrukturerade intervjuer (r=.38), allmän mental förmåga (r = .51); den bästa prediktorn för arbetsprestanda är arbetsprover, r =.54. Se hur Google fungerar för en diskussion om hur Google anpassade sina anställningsmetoder baserat på dessa data.
College Performance
liksom rökning har kopplingen mellan lämplighetsprov och prestation studerats omfattande. Tabell 1 innehåller också flera exempel på korrelationer mellan standardiserad testning och faktisk högskoleprestanda: för vita och asiatiska studenter vid Ivy League University of Pennsylvania (r = .20), College GPA för studenter i Jemen (r = .41), gre kvantitativ resonemang och MBA GPA (r = .37) Från 10 statliga universitet i Florida, och SAT poäng och kumulativ GPA från Ivy League Dartmouth College för alla studenter (r = .43).
kund-och användarbeteende
Jag har inkluderat flera giltighetskorrelationer från det arbete vi har gjort på MeasuringU, inklusive korrelationen mellan avsikt att rekommendera och 90 dagars rekommenderade priser för det senaste köpet (r = .79), sus-poäng och mjukvaruindustrins tillväxt (r = .74), Net Promoter Score och tillväxtstatistik i 14 branscher (r=.35), utvärderarnas rena poäng och användarnas uppgift-lätta poäng (r = .67). Liknande korrelationer ses också mellan publicerade studier om människors avsikt att köpa och köpa priser (r = .53) och avsikt att använda och faktisk användning (r = .50) som vi såg med TAM.
lektionen här är att medan värdet på vissa korrelationer är litet, kan konsekvenserna inte ignoreras. Och det är det som gör allmänna regler för korrelationer så svåra att tillämpa. Mitt hopp är tabellen över giltighetskorrelationer här från olika fält kommer att hjälpa andra att tänka kritiskt om ansträngningen att samla in och effekterna av varje förening.
sammanfattning och Takeaways
denna diskussion om korrelationen som ett mått på associering och en analys av validitetskorrelationskoefficienter avslöjade:
korrelationer kvantifierar relationer. Pearson-korrelationen r är det vanligaste (men inte bara) sättet att beskriva ett samband mellan variabler och är ett vanligt språk för att beskriva storleken på effekter över discipliner.
Validitets-och tillförlitlighetskoefficienterna skiljer sig åt. Inte alla korrelationer skapas lika. Korrelationer erhållna från samma prov (monometod) eller tillförlitlighetskorrelationer (med samma mått) är ofta högre r (r > .7) och kan leda till en orealistiskt hög korrelationsfält.
korrelationer kan vara svaga men effektfulla. Även numeriskt ” små ” korrelationer är både giltiga och meningsfulla när kontexten av påverkan (t.ex. hälsokonsekvenser) och ansträngning och kostnad för mätning redovisas. Rökning, aspirin och till och med psykoterapikorrelationerna är bra exempel på vad som kan tolkas grovt som svaga till blygsamma korrelationer, men där resultatet är ganska följdriktigt.
Ställ inte in orealistiskt höga staplar för giltighet. Att förstå sammanhanget för en korrelation hjälper till att ge mening. Om något kan mätas enkelt och till låg kostnad men ändå ha en blygsam förmåga att förutsäga ett effektfullt resultat (som företagets prestanda, högskolans prestanda, livslängd eller arbetsprestanda) kan det vara värdefullt. Den” låga ” korrelationen mellan rökning och cancer (r = .08) är en bra påminnelse om detta.