Articles

MeasuringU: ¿Qué Es una Correlación Fuerte?

Fumar causa cáncer.

Las advertencias en las etiquetas de los cigarrillos y de las organizaciones de salud hacen una declaración clara de que fumar causa cáncer.

Pero, ¿cómo lo sabemos?

Fumar precede al cáncer (en su mayoría cáncer de pulmón). Las personas que fuman cigarrillos tienden a contraer cáncer de pulmón y otros tipos de cáncer más que las que no fuman. Decimos que fumar está correlacionado con el cáncer. Descarta cuidadosamente otras causas y tendrás los ingredientes para justificar la causalidad.

La correlación es un ingrediente necesario pero no suficiente para la causalidad. O como sin duda han escuchado: La correlación no es igual a la causalidad. Una correlación cuantifica la asociación entre dos cosas. Pero la correlación no tiene que demostrar que la causalidad sea útil. A menudo, solo saber una cosa precede o predice algo más es muy útil. Por ejemplo, saber que el desempeño de los candidatos en las muestras de trabajo predice su desempeño laboral futuro ayuda a los gerentes a contratar a los candidatos adecuados. Diríamos que el rendimiento de la muestra de trabajo se correlaciona con (predice) el rendimiento del trabajo, a pesar de que las muestras de trabajo no causan un mejor rendimiento en el trabajo.

Una forma común (pero no la única) de calcular una correlación es la correlación de Pearson (denotada con una r), hecha famosa (pero no derivada) por Karl Pearson a finales de la década de 1880. Varía de una correlación positiva perfecta (+1) a una correlación negativa perfecta (-1) o sin correlación (r = 0). En la práctica, una correlación perfecta de 1 es información completamente redundante, por lo que es poco probable que la encuentre.

El coeficiente de correlación tiene sus deficiencias y no se considera «robusto» frente a cosas como la no normalidad, la no linealidad, las diferentes varianzas, la influencia de valores atípicos y un rango restringido de valores. Sin embargo, las deficiencias no lo hacen inútil o fatalmente defectuoso. En consecuencia, se usa ampliamente en muchas disciplinas científicas para describir la fuerza de las relaciones porque a menudo sigue siendo significativa. Es una especie de lenguaje común de asociación, ya que las correlaciones se pueden calcular en muchas medidas (por ejemplo, entre dos medidas binarias o rangos).

Volviendo a la relación entre el tabaquismo y el cáncer, una estimación de un estudio de 25 años sobre la correlación entre el tabaquismo y el cáncer de pulmón en los Estados Unidos es r = .08-una correlación apenas por encima de 0. Es posible que haya conocido a un fumador de toda la vida que no contrajo cáncer, lo que ilustra el punto (y la baja magnitud de la correlación) de que no todas las personas que fuman (incluso muchas) contraen cáncer.

Según algunas estimaciones, el 75-85% de los fumadores empedernidos de por vida NO contraen cáncer. De hecho, entre el 80% y el 90% de las personas que tienen cáncer de pulmón no fuman o nunca fuman.

Pero un estudio rara vez es la última palabra sobre un hallazgo y ciertamente no es una correlación. Hay muchas maneras de medir el vínculo del cáncer de fumar y la correlación varía algunas dependiendo de quién se mide y cómo.

Por ejemplo, en otro estudio de países en desarrollo, la correlación entre el porcentaje de la población adulta que fuma y la esperanza de vida es r = .40, que es ciertamente más grande que el.08 del estudio de EE.UU., pero está lejos de la correlación casi perfecta que implicaría la sabiduría convencional y las etiquetas de advertencia.

Si bien las correlaciones no son necesariamente la mejor manera de describir el riesgo asociado con las actividades, siguen siendo útiles para comprender la relación. Pero, lo que es más importante, comprender los detalles sobre los que se formó la correlación y comprender sus consecuencias son los pasos críticos para poner las correlaciones en perspectiva.

Validez vs Si bien es probable que no esté estudiando salud pública, su vida profesional y personal está llena de correlaciones que vinculan dos cosas (por ejemplo, fumar y el cáncer, los resultados de los exámenes y el rendimiento escolar, o beber café y mejorar la salud). Estas correlaciones se denominan correlación de validez. La validez se refiere a si algo mide lo que pretende medir. Diríamos que un conjunto de preguntas de entrevista que predice el desempeño laboral es válido. O un cuestionario de usabilidad es válido si se correlaciona con la finalización de tareas en un producto. La fuerza de la correlación habla de la fuerza de la afirmación de validez.

En MeasuringU escribimos extensamente sobre nuestra propia investigación y la de otros, y a menudo citamos coeficientes de correlación. Sin embargo, no todas las correlaciones son iguales y no todas son correlaciones de validez. Otra correlación común es la correlación de confiabilidad (la consistencia de las respuestas) y las correlaciones que provienen de la misma muestra de participantes (llamadas correlaciones monométodos). Las correlaciones monométodos son más fáciles de recopilar (solo se necesita una muestra de datos), pero debido a que los datos provienen de los mismos participantes, las correlaciones tienden a inflarse. Las correlaciones de confiabilidad también tienden a ser reportadas comúnmente en artículos revisados por pares y también suelen ser mucho más altas, a menudo r > .7. La disponibilidad de estas correlaciones más altas puede contribuir a la idea de que correlaciones como r =.3 o incluso r = .1 no tienen sentido.

Por ejemplo, encontramos que la fiabilidad de la prueba y la repetición de la prueba del Net Promoter Score es r=.7. Ejemplos de correlación monométodo son la correlación entre el SUS y el NPS (r=.62), entre los ítems individuales del SUS y la puntuación total del SUS (r = .9), y entre el SUS y el UMUX-Lite (r = .83), todas recogidas de la misma muestra y de los mismos participantes. Estas también son correlaciones de validez legítima (llamadas validez concurrente), pero tienden a ser más altas porque los valores de criterio y predicción se derivan de la misma fuente.

Interpretar los Coeficientes de Correlación de Validez

Muchos campos tienen su propia convención sobre lo que constituye una correlación fuerte o débil. En las ciencias del comportamiento, la convención (establecida en gran medida por Cohen) es que las correlaciones (como una medida del tamaño del efecto, que incluye correlaciones de validez) anteriores .5 son «grandes», alrededor .3 son «medio», y .10 y por debajo son «pequeños».»

Sin embargo, usando la convención de Cohen, el vínculo entre el tabaquismo y el cáncer de pulmón es débil en un estudio y quizás medio en el otro. Pero incluso dentro de las ciencias del comportamiento, el contexto importa. Incluso una pequeña correlación con un resultado consecuente (efectividad de la psicoterapia) puede tener consecuencias de vida o muerte.

Cuadrar la correlación (llamado coeficiente de determinación) es otra práctica común de interpretar la correlación (y el tamaño del efecto), pero también puede subestimar la fuerza de una relación entre variables, y a menudo se prefiere usar la r estándar. Exploraremos más formas de interpretar las correlaciones en un artículo futuro.

He recopilado correlaciones de validez en múltiples disciplinas a partir de varios artículos publicados (muchos meta-análisis) que incluyen estudios sobre efectos médicos y psicológicos, rendimiento laboral, rendimiento universitario y nuestra propia investigación sobre el comportamiento de los clientes y usuarios para proporcionar contexto a las correlaciones de validez. Muchos de los estudios de la tabla provienen del influyente artículo de Meyer et al. (2001).

Description Correlation
Aspirin and reduced risk of heart attack 0.02
Ever Smoking and Lung Cancer after 25 years 0.08
College Grades and Job Performance 0.16
Years of Experience & Job Performance 0.18
el SAT y el promedio Acumulado en la Universidad de Pennsylvania para (Blanco & Estudiantes Asiáticos) 0.20
HS Clase de Rango y promedio Acumulado en la Universidad de Pennsylvania para (Blanco & Estudiantes Asiáticos) 0.26
la Psicoterapia y la Posterior bienestar 0.32
Raw Net promoter Puntuaciones y Futuras de la Empresa Crecimiento de los Ingresos en 14 Industrias 0.35
GRE Razonamiento Cuantitativo y MBA GPA 0.37
Entrevistas de trabajo no estructuradas y Desempeño en el Trabajo 0.38
Viagra y mejora del funcionamiento sexual 0.38
Estatura y peso de 639 estudiantes bangladesíes (Promedio de Hombres y Mujeres) 0.38
Factor de predicción del Comportamiento Futuro 0,39
% de la Población adulta que Fuma y la Esperanza de Vida en los Países en Desarrollo 0,40
Examen de Ingreso a la Universidad y GPA Universitaria en Yemen 0.41
Puntuaciones SAT y GPA acumulado de Estudiantes de Dartmouth 0.43
Estatura y Peso en EE.UU. de 16,948 participantes 0.44
Rangos NPS y Crecimiento Futuro de los Ingresos de la Empresa en 14 industrias 0.44
Puntuaciones de la PRS de Rorschach y resultado posterior de la psicoterapia 0,44
Intención de usar tecnología y uso real 0,50
Capacidad Mental General y Rendimiento Laboral 0.51
Meta Análisis de Intención de Compra y de Compra (60 Estudios) 0,53
Muestra de trabajo y Rendimiento laboral 0,54
Puntuaciones PURAS de Expert y SUPR-Q de Usuarios 0,55
Puntuaciones puras De Expert y SEQ Puntuaciones de los Usuarios 0,67
Probabilidad de Recomendar y Tasa de Recomendación (Recomendación reciente) 0,69
Puntuaciones de SUS y Crecimiento Futuro de los Ingresos de Software (Productos Seleccionados) 0.74
Intención de compra y Tasa de Compra de Productos Nuevos (n=18) 0,75
Quintiles SUPR-Q y tasas de compra de 90 Días 0,78
Probabilidad de Recomendar y Tasa de recomendación (Compra reciente) 0,79
Puntuaciones PURAS de Expertos y Puntuaciones de Tiempo de Tarea de Usuarios 0,88
Precisión del Oxímetro de Pulso y Saturación de Oxígeno 0,89
Probabilidad de Recomendar y Tasa de Recomendación Reportada (Marcas) 0.90

Resultados médicos

Por ejemplo, la primera entrada en la Tabla 1 muestra que la correlación entre tomar aspirina y reducir el riesgo de ataque cardíaco es r = .02. Esta es la correlación más pequeña de la tabla y apenas por encima de 0. Sin embargo, la aspirina ha sido un elemento básico de las recomendaciones para la salud cardíaca durante décadas, aunque ahora se está cuestionando.

El medicamento de éxito de taquilla (y comercial de televisión regular) Viagra tiene una correlación de r = .38 con «rendimiento mejorado».»La psicoterapia tiene una correlación de «solo» r = .32 sobre el bienestar futuro. La altura y el peso que tradicionalmente se consideran fuertemente correlacionados tienen una correlación de r=.44 cuando se mide objetivamente en los EE.UU. o r = .38 de una muestra de Bangladesh. Eso no es tan diferente de la validez de las manchas de tinta en un estudio. La conexión entre los sensores de «saturación de oxígeno» que se coloca en el dedo ante el médico y el oxígeno real en la sangre es r = .89. Todo esto se puede ver en contexto con las dos correlaciones de tabaquismo discutidas anteriormente, r=.08 y r=.40.

Rendimiento en el trabajo

La tabla 1 muestra correlaciones para varios indicadores de rendimiento en el trabajo, incluidas las calificaciones universitarias (r=.16), años de experiencia (r = .18), entrevistas no estructuradas (r=.38), capacidad mental general (r = .51); el mejor predictor del desempeño en el trabajo son las muestras de trabajo, r =.54. Consulta Cómo funciona Google para ver cómo adaptó Google sus prácticas de contratación en función de estos datos.

Rendimiento universitario

Al igual que fumar, el vínculo entre las pruebas de aptitud y el rendimiento ha sido ampliamente estudiado. La Tabla 1 también contiene varios ejemplos de correlaciones entre las pruebas estandarizadas y el rendimiento universitario real: para estudiantes blancos y asiáticos de la Ivy League University of Pennsylvania (r=.20), GPA universitario para estudiantes en Yemen (r=.41), razonamiento cuantitativo GRE y GPA MBA (r = .37) de 10 universidades estatales en Florida, y puntajes SAT y GPA acumulativo de la Ivy League Dartmouth College para todos los estudiantes (r=.43).

Comportamiento del cliente y del usuario

He incluido varias correlaciones de validez del trabajo que hemos realizado en MeasuringU, incluida la correlación entre la intención de recomendar y las tasas de recomendación de 90 días para la compra más reciente (r=.79), las puntuaciones del SUS y el crecimiento de la industria del software (r = .74), el Net Promoter Score y las métricas de crecimiento en 14 industrias (r = .35), las puntuaciones PURAS de los evaluadores y las puntuaciones de facilidad de tarea de los usuarios (r = .67). También se observan correlaciones similares entre los estudios publicados sobre la intención de compra de las personas y las tasas de compra (r = .53) e intención de uso y uso real (r = .50) como vimos con el TAM.

La lección aquí es que, si bien el valor de algunas correlaciones es pequeño, las consecuencias no se pueden ignorar. Y eso es lo que hace que las reglas generales de correlaciones sean tan difíciles de aplicar. Mi esperanza es que la tabla de correlaciones de validez aquí de campos dispares ayude a otros a pensar críticamente sobre el esfuerzo de recolección y el impacto de cada asociación.

Resumen y conclusiones

Esta discusión sobre la correlación como medida de asociación y un análisis de los coeficientes de correlación de validez reveló:

Las correlaciones cuantifican las relaciones. La correlación de Pearson r es la forma más común (pero no la única) de describir una relación entre variables y es un lenguaje común para describir el tamaño de los efectos en todas las disciplinas.

Los coeficientes de validez y fiabilidad difieren. No todas las correlaciones son iguales. Las correlaciones obtenidas de la misma muestra (monométodo) o las correlaciones de confiabilidad (usando la misma medida) a menudo son r más altas (r > .7) y puede llevar a una barra de correlación muy alta y poco realista.

Las correlaciones pueden ser débiles pero impactantes. Incluso las correlaciones numéricamente «pequeñas» son válidas y significativas cuando se tienen en cuenta los contextos de impacto (por ejemplo, las consecuencias para la salud) y el esfuerzo y el costo de la medición. Las correlaciones de fumar, aspirina e incluso psicoterapia son buenos ejemplos de lo que se puede interpretar crudamente como correlaciones de débiles a modestas, pero donde el resultado es bastante consecuente.

No establezca barras altas no realistas para la validez. Comprender el contexto de una correlación ayuda a proporcionar significado. Si algo se puede medir fácilmente y a bajo costo, pero tiene incluso una capacidad modesta para predecir un resultado impactante (como el rendimiento de la empresa, el rendimiento universitario, la esperanza de vida o el rendimiento laboral), puede ser valioso. La correlación «baja» entre el tabaquismo y el cáncer (r=.08) es un buen recordatorio de esto.