Articles

Pomiar: Co To jest silna korelacja?

palenie powoduje raka.

ostrzeżenia na etykietach papierosów i od organizacji zdrowotnych zawierają wyraźne oświadczenie, że palenie powoduje raka.

ale skąd wiemy?

palenie tytoniu poprzedza raka (głównie raka płuc). Ludzie, którzy palą papierosy mają tendencję do płuc i innych nowotworów bardziej niż ci, którzy nie palą. Mówimy, że palenie jest skorelowane z rakiem. Ostrożnie wykluczyć inne przyczyny i masz składniki, aby sprawę przyczynowości.

korelacja jest niezbędnym, ale niewystarczającym składnikiem związku przyczynowego. Albo jak zapewne słyszeliście: korelacja nie równa się przyczynowości. Korelacja kwantyfikuje związek między dwoma rzeczami. Ale korelacja nie musi udowadniać, że związek przyczynowy jest użyteczny. Często wiedza o jednej rzeczy poprzedza lub przewiduje coś innego jest bardzo pomocna. Na przykład wiedza, że wyniki kandydatów do pracy na próbkach pracy przewidują ich przyszłe wyniki pracy, pomaga menedżerom zatrudnić odpowiednich kandydatów. Powiedzielibyśmy, że wydajność próbki pracy koreluje z wydajnością pracy (przewiduje), nawet jeśli próbki pracy nie powodują lepszej wydajności pracy.

powszechnym (ale nie jedynym) sposobem obliczania korelacji jest korelacja Pearsona (oznaczona r), znana (ale nie pochodna) przez Karla Pearsona pod koniec 1880 roku. waha się od doskonałej korelacji dodatniej (+1) do doskonałej korelacji ujemnej (-1) lub bez korelacji (r = 0). W praktyce doskonała korelacja 1 jest całkowicie zbędną informacją, więc raczej jej nie napotkasz.

współczynnik korelacji ma swoje wady i nie jest uważany za „solidny” w stosunku do rzeczy takich jak nienormalność, Nieliniowość, różne wariancje, wpływ wartości odstających i ograniczony zakres wartości. Niedociągnięcia jednak nie sprawiają, że jest bezużyteczny lub śmiertelnie wadliwy. W związku z tym jest szeroko stosowany w wielu dyscyplinach naukowych do opisywania siły relacji, ponieważ często ma znaczenie. Jest to rodzaj wspólnego języka asocjacji, ponieważ korelacje można obliczyć na wielu miarach (na przykład między dwiema miarami binarnymi lub szeregami).

Wracając do Związku palenia z rakiem, jednym z szacunków z 25-letniego badania na temat korelacji między paleniem a rakiem płuc w USA jest r = .08-korelacja ledwie powyżej 0. Być może znasz przez całe życie palacza, który nie zachorował na raka-ilustrując punkt (i niską wielkość korelacji), że nie każdy, kto pali (nawet dużo), zachoruje na raka.

według niektórych szacunków 75%-85% nałogowych palaczy nie ma raka. W rzeczywistości 80%-90% ludzi, którzy mają raka płuc, nie palą lub nigdy nie palą!

ale jedno badanie rzadko jest ostatnim słowem na temat znaleziska, a na pewno nie korelacji. Istnieje wiele sposobów pomiaru związku z rakiem palenia, a korelacja różni się w zależności od tego, kto jest mierzony i jak.

na przykład w innym badaniu krajów rozwijających się korelacja między procentem dorosłej populacji, która pali, a średnią długością życia wynosi r = .40, co z pewnością jest większe niż.08 z badań USA, ale jest to dalekie od prawie idealnej korelacji konwencjonalnej mądrości i etykiet ostrzegawczych.

chociaż korelacje niekoniecznie są najlepszym sposobem opisania ryzyka związanego z działaniami, nadal są pomocne w zrozumieniu relacji. Ale co ważne, zrozumienie szczegółów, na których powstała korelacja i zrozumienie ich konsekwencji są kluczowymi krokami w postrzeganiu korelacji.

Ważność vs. Korelacje niezawodności

chociaż prawdopodobnie nie studiujesz zdrowia publicznego, twoje życie zawodowe i osobiste są wypełnione korelacjami łączącymi dwie rzeczy (na przykład palenie tytoniu i rak, wyniki testów i osiągnięcia szkolne lub picie kawy i poprawa zdrowia). Korelacje te nazywane są korelacją ważności. Ważność odnosi się do tego, czy coś mierzy to, co zamierza zmierzyć. Powiedzielibyśmy, że zestaw pytań kwalifikacyjnych, które przewidują wydajność pracy, jest prawidłowy. Lub kwestionariusz użyteczności jest ważny, jeśli koreluje z wykonaniem zadania na produkcie. Siła korelacji przemawia do siły twierdzenia o ważności.

w MeasuringU piszemy obszernie o własnych i cudzych badaniach i często cytujemy współczynniki korelacji. Jednak nie wszystkie korelacje są równe i nie wszystkie są korelacjami ważności. Inną wspólną korelacją jest korelacja niezawodności (spójność odpowiedzi) i korelacje, które pochodzą z tej samej próby uczestników (zwane korelacjami monometodowymi). Korelacje monometodowe są łatwiejsze do zebrania (potrzebujesz tylko jednej próbki danych), ale ponieważ dane pochodzą od tych samych uczestników, korelacje wydają się być zawyżone. Korelacje niezawodności są również często zgłaszane w recenzowanych artykułach i są zazwyczaj znacznie wyższe, często r > .7. Dostępność tych wyższych korelacji może przyczynić się do idei, że korelacje takie jak r =.3 lub nawet r = .1 są bez znaczenia.

na przykład stwierdziliśmy, że wiarygodność testu Net Promoter Score wynosi r = .7. Przykładem korelacji monometodowej jest korelacja między SUS i NPS (r = .62), pomiędzy poszczególnymi pozycjami SUS a sumą punktacji sus (r = .9), a między SUS i UMUX-Lite (r = .83), wszystkie zebrane z tej samej próbki i uczestników. Są to również uzasadnione korelacje ważności (zwane jednoczesną trafnością), ale wydają się być wyższe, ponieważ wartości kryterium i prognozy pochodzą z tego samego źródła.

interpretacja współczynników korelacji ważności

wiele pól ma własną Konwencję o tym, co stanowi silną lub słabą korelację. W naukach behawioralnych Konwencja (w dużej mierze ustalona przez Cohena) jest taka, że korelacje (jako miara wielkości efektu, która obejmuje korelacje ważności) powyżej .5 są „duże”, wokół .3 są „średnie” i .10 i poniżej są ” małe.”

korzystając z Konwencji Cohena, związek między paleniem a rakiem płuc jest słaby w jednym badaniu, a może średni w drugim. Ale nawet w naukach behawioralnych kontekst ma znaczenie. Nawet niewielka korelacja z konsekwencją (skutecznością psychoterapii) może nadal mieć konsekwencje na życie i śmierć.

do kwadratu korelacji (zwany współczynnik determinacji) jest inną powszechną praktyką interpretacji korelacji (i wielkości efektu), ale może również zaniżać siłę zależności między zmiennymi, a często preferowane jest użycie standardowego R. Więcej sposobów interpretacji korelacji omówimy w przyszłym artykule.

zebrałem korelacje ważności w wielu dyscyplinach z kilku opublikowanych artykułów (wiele meta-analiz), które obejmują badania nad efektami medycznymi i psychologicznymi, wynikami pracy, wynikami uczelni i naszymi własnymi badaniami na temat zachowań klientów i użytkowników, aby zapewnić kontekst korelacji ważności. Wiele badań w tabeli pochodzi z wpływowej pracy Meyer et al. (2001).

/td>

Description Correlation
Aspirin and reduced risk of heart attack 0.02
Ever Smoking and Lung Cancer after 25 years 0.08
College Grades and Job Performance 0.16
Years of Experience & Job Performance 0.18
wyniki SAT i skumulowana GPA na Uniwersytecie Pensylwanii dla (białych & studentów azjatyckich) 0.20
Ranga klasy HS i skumulowana GPA na Uniwersytecie Pensylwanii dla (białych & studentów azjatyckich) 0.26
Psychoterapia i późniejsze dobre samopoczucie 0.32
raw promoter scores i przyszły wzrost przychodów firmy w 14 branżach 0.35
gre Quantitative Reasoning and MBA GPA 0.37
nieustrukturyzowane rozmowy kwalifikacyjne i wyniki pracy 0.38
Viagra i ulepszone funkcjonowanie seksualne 0.38
wzrost i waga od 639 studentów z Bangladeszu (średnio mężczyzn i kobiet) 0.38
przeszłe zachowanie jako czynnik przewidujący przyszłe zachowanie 0,39
% dorosłej populacji, która pali i średnia długość życia w krajach rozwijających się 0,40
egzamin wstępny do college 'u i GPA w college’ u w Jemenie 0.41
wyniki SAT i skumulowana średnia ocen od studentów z Dartmouth 0.43
wzrost i waga w USA od 16,948 uczestników 0.44
ranking NPS i przyszły wzrost przychodów firmy w 14 branżach 0.44
wyniki Rorschacha PRS i późniejsze wyniki psychoterapii 0,44
zamiar wykorzystania technologii i rzeczywiste wykorzystanie 0,50
ogólna zdolność umysłowa i wydajność pracy 0.51
Intencja zakupu i metaanaliza zakupu (60 badań) 0,53
przykład pracy i wydajność pracy 0,54
czyste wyniki eksperta i wyniki SUPR-Q od użytkowników 0,55
czyste wyniki od ekspertów i SEQ wyniki od użytkowników 0.67
74
Intencja zakupu i cena zakupu nowych produktów (n=18) 0,75
KWINTYLE SUPR-Q i 90-dniowe stawki zakupu 0,78
prawdopodobieństwo polecania i cena polecania (ostatni zakup) 0,79
czyste wyniki eksperta i wyniki czasu zadania od użytkowników 0,88
dokładność pulsoksymetru i nasycenia tlenem 0,89
prawdopodobieństwo polecania i zgłaszane polecane stawki (marki) 0.90

wyniki leczenia

na przykład, pierwszy wpis W Tabeli 1 pokazuje, że korelacja między przyjmowaniem aspiryny a zmniejszaniem ryzyka zawału serca wynosi r = .02. Jest to najmniejsza korelacja w tabeli i ledwie powyżej 0. Jednak aspiryna była podstawą zaleceń dotyczących zdrowia serca od dziesięcioleci, chociaż obecnie jest kwestionowana.

przebojowy lek (i komercyjny) Viagra ma korelację r = .38 z ” poprawioną wydajnością.”Psychoterapia ma korelację „tylko” r = .32 na temat przyszłego dobrobytu. Wzrost i waga, które są tradycyjnie uważane za silnie skorelowane, mają korelację r = .44 przy obiektywnym pomiarze w USA lub r = .38 Z próbki z Bangladeszu. To nie różni się od ważności plam atramentowych w jednym badaniu. Połączenie między czujnikami „pulsoksymetru”, które umieszczasz na palcu u lekarza, a faktycznym tlenem we krwi wynosi r = .89. Wszystko to można zobaczyć w kontekście dwóch korelacji palenia omówionych wcześniej, r = .08 i r = .40.

wyniki Pracy

Tabela 1 przedstawia korelacje dla kilku wskaźników wydajności pracy, w tym ocen z uczelni (r = .16), lata doświadczenia (r = .18), wywiady niestrukturalne (r=.38), ogólna zdolność umysłowa (r = .51); najlepszym wskaźnikiem wydajności pracy są próbki pracy, r =.54. Zobacz, jak działa Google, aby dowiedzieć się, w jaki sposób Google dostosowało swoje praktyki rekrutacyjne w oparciu o te dane.

wyniki w College ’ u

podobnie jak palenie, związek między testami umiejętności a osiągnięciami został szeroko zbadany. Tabela 1 zawiera również kilka przykładów korelacji między standaryzowanymi testami a rzeczywistymi wynikami w college ’ u: dla białych i azjatyckich studentów na Uniwersytecie Ivy League of Pennsylvania (r = .20), College GPA dla studentów w Jemenie (r = .41), GRE i MBA GPAs (r = .37) Z 10 uniwersytetów stanowych na Florydzie, a wyniki SAT i łączne GPA z Ivy League Dartmouth College dla wszystkich STUDENTÓW (r = .43).

zachowanie klienta i Użytkownika

zawarłem kilka korelacji ważności z pracy, którą wykonaliśmy w MeasuringU, w tym korelację między intencją polecenia a 90-dniowymi zalecanymi stawkami dla ostatniego zakupu (r = .79), wyniki SUS i rozwój branży oprogramowania (r = .74), Net Promoter Score i growth metrics w 14 branżach (r = .35), oceny „PURE scores” i oceny użytkowników ” task-ease scores (r=.67). Podobne korelacje są również widoczne między opublikowanymi badaniami na temat intencji kupna i stawek zakupu (r = .53) oraz zamiar użycia i rzeczywiste użycie (r = .50) jak widzieliśmy z TAM.

lekcja jest taka, że chociaż wartość niektórych korelacji jest niewielka, konsekwencje nie mogą być ignorowane. I to właśnie sprawia, że ogólne zasady korelacji są tak trudne do zastosowania. Mam nadzieję, że Tabela korelacji ważności tutaj z różnych dziedzin pomoże innym krytycznie myśleć o wysiłku, aby zebrać i wpływ każdego stowarzyszenia.

Podsumowanie i podsumowanie

ta dyskusja na temat korelacji jako miary asocjacji i analiza współczynników korelacji ważności ujawniła:

korelacje kwantyfikują relacje. Korelacja Pearsona r jest najczęstszym (ale nie tylko) sposobem opisywania zależności między zmiennymi i jest wspólnym językiem opisującym rozmiar efektów w różnych dyscyplinach.

współczynniki ważności i niezawodności różnią się. Nie wszystkie korelacje są sobie równe. Korelacje uzyskane z tej samej próbki (monometod) lub korelacje niezawodności (przy użyciu tej samej miary) są często wyższe r (r > .7) i może prowadzić do nierealistycznie wysokiego paska korelacji.

korelacje mogą być słabe, ale mają wpływ. Nawet liczbowo” małe ” korelacje są ważne i znaczące, gdy uwzględniane są konteksty wpływu (np. konsekwencje zdrowotne) oraz wysiłek i koszt pomiaru. Korelacje dotyczące palenia tytoniu, aspiryny, a nawet psychoterapii są dobrymi przykładami tego, co można bezlitośnie zinterpretować jako słabe lub skromne korelacje, ale gdzie wynik jest dość konsekwentny.

nie ustawiaj nierealistycznie wysokich słupków dla ważności. Zrozumienie kontekstu korelacji pomaga nadać znaczenie. Jeśli coś może być mierzone łatwo i za niskie koszty, ale mają nawet skromną zdolność do przewidywania wpływowych wyników (takich jak wyniki Firmy, wyniki uczelni, długość życia, lub wydajność pracy), może być cenne. „Niska” korelacja między paleniem a rakiem (r = .08) jest dobrym przypomnieniem tego.