Articles

MeasuringU : Qu’est-Ce qu’une Forte Corrélation?

Le tabagisme provoque le cancer.

Les avertissements sur les étiquettes des cigarettes et des organisations de santé indiquent clairement que le tabagisme cause le cancer.

Mais comment le savons-nous ?

Le tabagisme précède le cancer (principalement le cancer du poumon). Les personnes qui fument des cigarettes ont tendance à contracter plus de cancers du poumon et d’autres cancers que celles qui ne fument pas. Nous disons que le tabagisme est corrélé au cancer. Éliminez soigneusement les autres causes et vous avez les ingrédients pour justifier la causalité.

La corrélation est un ingrédient nécessaire mais pas suffisant pour la causalité. Ou comme vous l’avez sans doute entendu: la corrélation n’égale pas la causalité. Une corrélation quantifie l’association entre deux choses. Mais la corrélation n’a pas besoin de prouver la causalité pour être utile. Souvent, le simple fait de savoir une chose précède ou prédit autre chose est très utile. Par exemple, le fait de savoir que la performance des candidats sur des échantillons de travail prédit leur performance future aide les gestionnaires à embaucher les bons candidats. Nous dirions que la performance des échantillons de travail est en corrélation avec (prédit) la performance du travail, même si les échantillons de travail n’entraînent pas une meilleure performance du travail.

Une façon courante (mais pas la seule) de calculer une corrélation est la corrélation de Pearson (notée r), rendue célèbre (mais non dérivée) par Karl Pearson à la fin des années 1880. Elle va d’une corrélation positive parfaite (+1) à une corrélation négative parfaite (-1) ou aucune corrélation (r = 0). En pratique, une corrélation parfaite de 1 est une information complètement redondante, il est donc peu probable que vous la rencontriez.

Le coefficient de corrélation a ses défauts et n’est pas considéré comme « robuste » contre des éléments tels que la non-normalité, la non-linéarité, les différentes variances, l’influence de valeurs aberrantes et une plage restreinte de valeurs. Les lacunes cependant, ne le rendent pas inutile ou fatalement imparfait. Par conséquent, il est largement utilisé dans de nombreuses disciplines scientifiques pour décrire la force des relations, car il est encore souvent significatif. C’est en quelque sorte le langage commun d’association car les corrélations peuvent être calculées sur de nombreuses mesures (par exemple, entre deux mesures ou rangs binaires).

Pour en revenir au lien entre le tabagisme et le cancer, une estimation d’une étude de 25 ans sur la corrélation entre le tabagisme et le cancer du poumon aux États-Unis est de r =.08 – une corrélation à peine supérieure à 0. Vous avez peut—être connu un fumeur à vie qui n’a pas eu de cancer – illustrant le fait (et la faible ampleur de la corrélation) que tous ceux qui fument (même beaucoup) ne contractent pas le cancer.

Selon certaines estimations, 75% à 85 % des gros fumeurs à vie NE CONTRACTENT PAS de cancer. En fait, 80 % à 90 % des personnes atteintes d’un cancer du poumon ne fument pas ou n’ont jamais fumé!

Mais une étude est rarement le dernier mot sur une conclusion et certainement pas une corrélation. Il existe de nombreuses façons de mesurer le lien entre le cancer du tabagisme et la corrélation varie selon qui est mesuré et comment.

Par exemple, dans une autre étude des pays en développement, la corrélation entre le pourcentage de la population adulte qui fume et l’espérance de vie est r =.40, qui est certainement plus grand que le.08 de l’étude américaine, mais c’est loin de la corrélation presque parfaite que la sagesse conventionnelle et les étiquettes d’avertissement impliqueraient.

Bien que les corrélations ne soient pas nécessairement la meilleure façon de décrire le risque associé aux activités, elles restent utiles pour comprendre la relation. Mais il est important de comprendre les détails sur lesquels la corrélation a été formée et de comprendre leurs conséquences sont les étapes critiques pour mettre les corrélations en perspective.

Validité vs. Corrélations de fiabilité

Même si vous n’étudiez probablement pas la santé publique, votre vie professionnelle et personnelle est remplie de corrélations reliant deux choses (par exemple, le tabagisme et le cancer, les résultats aux tests et les résultats scolaires, ou boire du café et améliorer la santé). Ces corrélations sont appelées corrélation de validité. La validité fait référence à la question de savoir si quelque chose mesure ce qu’il a l’intention de mesurer. Nous dirions qu’un ensemble de questions d’entrevue qui prédit la performance au travail est valide. Ou un questionnaire d’utilisabilité est valide s’il est en corrélation avec l’achèvement de la tâche sur un produit. La force de la corrélation témoigne de la force de l’affirmation de validité.

Chez MeasuringU, nous écrivons beaucoup sur nos propres recherches et celles des autres et citons souvent des coefficients de corrélation. Cependant, toutes les corrélations ne sont pas créées égales et toutes ne sont pas des corrélations de validité. Une autre corrélation commune est la corrélation de fiabilité (la cohérence des réponses) et les corrélations provenant du même échantillon de participants (appelées corrélations monométhodales). Les corrélations monométhodales sont plus faciles à collecter (vous n’avez besoin que d’un échantillon de données), mais comme les données proviennent des mêmes participants, les corrélations ont tendance à être gonflées. Les corrélations de fiabilité ont également tendance à être à la fois couramment rapportées dans les articles évalués par des pairs et sont généralement beaucoup plus élevées, souvent r>.7. La disponibilité de ces corrélations plus élevées peut contribuer à l’idée que des corrélations telles que r =.3 ou même r =.1 n’ont pas de sens.

Par exemple, nous avons trouvé que la fiabilité test-retest du score de promoteur net est r =.7. Des exemples de corrélation monométhodale sont la corrélation entre le SUS et le NPS (r =.62), entre les éléments SUS individuels et le score SUS total (r =.9), et entre le SUS et l’UMUX-Lite (r=.83), toutes recueillies auprès du même échantillon et des mêmes participants. Il s’agit également de corrélations de validité légitimes (appelées validité concurrente), mais elles ont tendance à être plus élevées car les valeurs de critère et de prédiction sont dérivées de la même source.

Interprétation des coefficients de corrélation de validité

De nombreux champs ont leur propre convention sur ce qui constitue une corrélation forte ou faible. Dans les sciences du comportement, la convention (largement établie par Cohen) est celle des corrélations (en tant que mesure de la taille de l’effet, qui inclut les corrélations de validité) ci-dessus.5 sont « grands », autour.3 sont « moyen «  » et.10 et ci-dessous sont « petits. »

En utilisant la convention de Cohen cependant, le lien entre le tabagisme et le cancer du poumon est faible dans une étude et peut-être moyen dans l’autre. Mais même dans les sciences du comportement, le contexte compte. Même une faible corrélation avec un résultat consécutif (efficacité de la psychothérapie) peut encore avoir des conséquences sur la vie et la mort.

La quadrature de la corrélation (appelée coefficient de détermination) est une autre pratique courante d’interprétation de la corrélation (et de la taille de l’effet), mais peut également sous-estimer la force d’une relation entre les variables, et l’utilisation de la norme r est souvent préférée. Nous explorerons d’autres façons d’interpréter les corrélations dans un prochain article.

J’ai collecté des corrélations de validité dans plusieurs disciplines à partir de plusieurs articles publiés (de nombreuses méta-analyses) qui incluent des études sur les effets médicaux et psychologiques, la performance au travail, les performances universitaires et nos propres recherches sur le comportement des clients et des utilisateurs pour fournir un contexte aux corrélations de validité. De nombreuses études du tableau proviennent de l’article influent de Meyer et al. (2001).

Description Correlation
Aspirin and reduced risk of heart attack 0.02
Ever Smoking and Lung Cancer after 25 years 0.08
College Grades and Job Performance 0.16
Years of Experience & Job Performance 0.18
Scores SAT et Moyenne cumulative à l’Université de Pennsylvanie pour (Blanc &Étudiants asiatiques) 0,20
Rang de classe HS et Moyenne cumulative à l’Université de Pennsylvanie pour (Blanc &Étudiants asiatiques) 0,26
Psychothérapie et Bien-être subséquent 0,32
Scores Nets bruts des Promoteurs et Croissance Future des Revenus des Entreprises dans 14 Industries 0,35
GRE Raisonnement quantitatif et MBA GPA 0.37
Entretiens d’embauche non structurés et Rendement au travail 0,38
Viagra et amélioration du fonctionnement sexuel 0,38
Taille et poids de 639 étudiants bangladais (Moyenne des Hommes et des femmes) 0,38
Comportement passé comme Prédicteur du Comportement futur 0,39
% de la Population adulte qui Fume et Espérance de Vie dans les Pays en développement 0,40
Examen d’entrée au Collège et GPA au Collège au Yémen 0.41
Scores SAT et Moyenne cumulative des étudiants de Dartmouth 0,43
Taille et poids aux États-Unis de 16 948 participants 0,44
Rangs NPS et Croissance future des revenus des entreprises dans 14 industries 0,44
Scores de Rorschach PRS et résultat de la psychothérapie subséquente 0,44
Intention d’utiliser la technologie et l’utilisation réelle 0,50
Capacité mentale générale et rendement au travail 0.51
Méta-Analyse des Intentions d’Achat et des Achats (60 Études) 0,53
Échantillon de travail et Rendement au travail 0,54
Scores PURS d’Experts et de SUPR-Q Scores d’Utilisateurs 0,55
Scores Purs d’Experts et de SEQ Scores des utilisateurs 0,67
Probabilité de Recommander et de Recommander le Taux (Recommandation récente) 0,69
Scores SUS et Croissance Future des Revenus logiciels (Produits sélectionnés) 0.74
Intention d’achat et Taux d’achat pour les Nouveaux Produits (n = 18) 0,75
Quintiles SUPR-Q et taux d’achat à 90 jours 0,78
Probabilité de Recommander et de recommander le Taux (Achat récent) 0,79
Scores PURS d’Experts et Scores de Temps de Tâche d’Utilisateurs 0,88
Précision de l’Oxymètre de Pouls et de la Saturation en Oxygène 0,89
Probabilité de Recommander et de Taux de Recommandation Signalé (Marques) 0.90

Résultats médicaux

Par exemple, la première entrée du tableau 1 montre que la corrélation entre la prise d’aspirine et la réduction du risque de crise cardiaque est r =.02. Il s’agit de la plus petite corrélation du tableau et à peine supérieure à 0. Pourtant, l’aspirine est un aliment de base des recommandations pour la santé cardiaque depuis des décennies, bien qu’elle soit maintenant remise en question.

Le médicament à succès (et commercial régulier à la télévision) Viagra a une corrélation de r =.38 avec « performances améliorées. »La psychothérapie a une corrélation de « seulement » r =.32 sur le bien-être futur. La taille et le poids qui sont traditionnellement considérés comme fortement corrélés ont une corrélation de r =.44 lorsqu’il est mesuré objectivement aux États-Unis ou r =.38 d’un échantillon bangladais. Ce n’est pas si différent que la validité des taches d’encre dans une étude. La connexion entre les capteurs « pulse-ox » que vous mettez sur votre doigt chez le médecin et l’oxygène réel dans votre sang est r =.89. Tout cela peut être vu dans le contexte des deux corrélations de tabagisme discutées précédemment, r =.08 et r =.40.

Rendement au travail

Le tableau 1 montre les corrélations pour plusieurs indicateurs de rendement au travail, y compris les notes au collège (r =.16), années d’expérience (r =.18), entretiens non structurés (r =.38), capacité mentale générale (r =.51); le meilleur prédicteur de la performance au travail est les échantillons de travail, r =.54. Découvrez comment fonctionne Google pour une discussion sur la façon dont Google a adapté ses pratiques d’embauche en fonction de ces données.

Performance collégiale

Tout comme le tabagisme, le lien entre les tests d’aptitude et la réussite a été largement étudié. Le tableau 1 contient également plusieurs exemples de corrélations entre les tests standardisés et les performances universitaires réelles: pour les étudiants blancs et asiatiques de l’Ivy League University of Pennsylvania (r =.20), GPA universitaire pour les étudiants au Yémen (r =.41), GRE raisonnement quantitatif et MBA GPAs (r =.37) de 10 universités d’État en Floride, et scores SAT et GPA cumulatif de l’Ivy League Dartmouth College pour tous les étudiants (r =.43).

Comportement des clients et des utilisateurs

J’ai inclus plusieurs corrélations de validité du travail que nous avons effectué chez MeasuringU, y compris la corrélation entre l’intention de recommander et les taux de recommandation à 90 jours pour l’achat le plus récent (r =.79), les scores SUS et la croissance de l’industrie du logiciel (r =.74), le Score net des promoteurs et les mesures de croissance dans 14 industries (r =.35), les scores PURS des évaluateurs et les scores de facilité de tâche des utilisateurs (r =.67). Des corrélations similaires sont également observées entre les études publiées sur l’intention d’achat des personnes et les taux d’achat (r =.53) et l’intention d’utilisation et l’utilisation réelle (r =.50) comme nous l’avons vu avec le TAM.

La leçon ici est que même si la valeur de certaines corrélations est faible, les conséquences ne peuvent pas être ignorées. Et c’est ce qui rend les règles générales de corrélations si difficiles à appliquer. J’espère que le tableau des corrélations de validité ici à partir de champs disparates aidera les autres à réfléchir de manière critique à l’effort de collecte et à l’impact de chaque association.

Résumé et points à retenir

Cette discussion sur la corrélation en tant que mesure d’association et une analyse des coefficients de corrélation de validité a révélé:

Les corrélations quantifient les relations. La corrélation de Pearson r est la façon la plus courante (mais pas seulement) de décrire une relation entre les variables et constitue un langage courant pour décrire la taille des effets entre les disciplines.

Les coefficients de validité et de fiabilité diffèrent. Toutes les corrélations ne sont pas créées égales. Les corrélations obtenues à partir du même échantillon (monométhode) ou les corrélations de fiabilité (en utilisant la même mesure) sont souvent plus élevées r(r>.7) et peut conduire à une barre de corrélation irréaliste.

Les corrélations peuvent être faibles mais avoir un impact. Même les corrélations numériquement « petites » sont à la fois valables et significatives lorsque les contextes d’impact (par exemple, les conséquences sur la santé) et les efforts et les coûts de mesure sont pris en compte. Les corrélations du tabagisme, de l’aspirine et même de la psychothérapie sont de bons exemples de ce qui peut être cruellement interprété comme des corrélations faibles à modestes, mais dont le résultat est assez conséquent.

Ne définissez pas de barres de validité irréalistes. Comprendre le contexte d’une corrélation aide à donner du sens. Si quelque chose peut être mesuré facilement et à faible coût tout en ayant une capacité même modeste à prédire un résultat percutant (comme le rendement de l’entreprise, le rendement de l’université, l’espérance de vie ou le rendement au travail), cela peut être précieux. La corrélation « faible » entre le tabagisme et le cancer (r =.08) en est un bon rappel.