Articles

Valores p exactos para la comparación en pares de sumas de rangos de Friedman, con aplicación a la comparación de clasificadores

Datos de Friedman

Para realizar la prueba de Friedman, los datos observados se organizan en forma de un diseño bidireccional completo, como en la Tabla 1A, donde las filas k representan los grupos (clasificadores) y las columnas n representan los bloques (conjuntos de datos).

Tabla 1 Diseño bidireccional para la prueba de Friedman

Los datos constan de n bloques con k observaciones dentro de cada bloque. Se supone que las observaciones en bloques diferentes son independientes. Esta suposición no se aplica a las observaciones k dentro de un bloque. El procedimiento de prueba sigue siendo válido a pesar de las dependencias dentro de los bloques . La estadística de prueba de Friedman se define en los datos clasificados, por lo que, a menos que los datos sin procesar originales sean puntajes de rango con valores enteros, los datos sin procesar se transforman por rango. Las entradas de rango en la Tabla 1B se obtienen ordenando primero los datos brutos {x ij; i = 1,…, n, j = 1, k, k} en la Tabla 1A en forma de columna de menor a mayor, dentro de cada uno de los n bloques por separado e independientemente, y luego asignar los enteros 1,…, k como las puntuaciones de rango de las observaciones k dentro de un bloque. La suma de filas de cualquier grupo j es la suma de filas definida como R j = ∑ n i = 1 r ij .

Hipótesis nula

La hipótesis nula general de la prueba de Friedman es que todas las muestras bloqueadas k, cada una de tamaño n, provienen de distribuciones de población idénticas pero no especificadas. Para especificar esta hipótesis nula con más detalle, deje que X ij denote una variable aleatoria con función de distribución acumulativa desconocida F ij, y deje que x ij denote la realización de X ij .

La hipótesis nula se puede definir de dos maneras, dependiendo de si los bloques son fijos o aleatorios . Si los bloques son fijos, todos los valores de medición de k × n son independientes. Si hay grupos k asignados aleatoriamente para contener k X ij no relacionados dentro de cada bloque, como en un diseño de bloque completo aleatorio, entonces la hipótesis nula de que los grupos k tienen distribuciones idénticas puede formularse como

H 0 : F i1(x) = F = F ik (x) = F i (x) para cada i = 1,…, n,

donde F i (x) es la distribución de las observaciones en el bloque i . La misma hipótesis, pero más específica, se obtiene si se asume que el modelo aditivo habitual ha generado el x ij en el diseño bidireccional . El modelo aditivo descompone el efecto total sobre el valor de medición en un efecto global μ, un efecto de bloque i β i y un efecto de grupo j τ j . Si la función de distribución se denota F ij (x) = F(x − μ − β i − τ j ), la hipótesis nula de que no haya diferencias entre los grupos k puede declararse como

di {H}_0:\kern0.5em {\tau}_1=\dots ={\tau}_k, $ $

y la hipótesis alternativa general como

\( {H}_1:\kern0.5em {\tau}_{j_1}\ne {\tau}_{j_2} \) para al menos un par (j 1, j 2).

Tenga en cuenta que esta representación también afirma que las funciones de distribución subyacentes F i1(x), …, F ik (x) dentro del bloque i son las mismas, es decir, que F i1(x) = F = F ik (x) = F i (x), para cada i fijo = 1,…, n.

Si los bloques son aleatorios, las mediciones del mismo bloque aleatorio se correlacionarán positivamente. Por ejemplo, si un solo sujeto forma un bloque y se hacen observaciones k sobre el sujeto, posiblemente en orden aleatorio, las observaciones dentro del bloque son dependientes. Tal dependencia ocurre en un diseño de medidas repetidas donde se observan n sujetos y cada sujeto se prueba en condiciones k. Denota la función de distribución conjunta de observaciones dentro del bloque i por F i (x 1,…, x k). Entonces la hipótesis nula de no diferencias entre los grupos k es la hipótesis de la intercambiabilidad de las variables aleatorias X i1, …, X ik , formulado como

H 0 : F i (x 1, …, x k ) = F i (x σ(1), …, x σ(k)) para i = 1, …, n,

donde σ(1), …, σ(k) denota cualquier permutación de 1, …, k. El modelo subyacente a esta hipótesis es que las variables aleatorias X ij tienen una distribución intercambiable. Este es un modelo adecuado para medidas repetidas, en las que no es apropiado asumir la independencia dentro de un bloque . También observamos que esta formulación de la hipótesis nula y la de bloques fijos son consistentes contra la misma alternativa, a saber, la negación de H 0. Para un análisis detallado de este asunto, véase .

Si los bloques son fijos o aleatorios, si la hipótesis nula es verdadera, entonces todas las permutaciones de 1,…, k son igualmente probables. Hay k ! las posibles formas de asignar puntajes de rango k a los grupos k dentro de cada bloque y todas estas permutaciones intra-bloque son equiprobables bajo H 0. Como el mismo argumento de permutación se aplica a cada uno de los n bloques independientes, hay (k !) n configuraciones de rango igualmente probables de las puntuaciones de rango r ij en el diseño bidireccional . Cada una de estas permutaciones tiene una probabilidad de (k !)- n de ser realizado. Esta característica se utiliza para evaluar la distribución nula de las sumas de rango R j, enumerando todas las permutaciones del diseño bidireccional de los rangos.

Estadística de prueba de Friedman

Bajo la hipótesis nula de Friedman, la suma esperada de filas para cada grupo es igual a n (k + 1) / 2. El estadístico de prueba de Friedman

{{X} _r ^ 2= \ frac {12} {nk\left (k+1\right)} {\displaystyle \ sum_ {j=1}^k {\left\{{R} _j – n \ left (k+1\right)/2\right\}}^2} $$

suma las desviaciones al cuadrado de las sumas de rango observadas para cada grupo, R j, del valor esperado común para cada grupo, n(k + 1)/2, bajo el supuesto de que las distribuciones de grupo k son idénticas. Para valores pequeños de k y n, la distribución exacta de X 2 r ha sido presentada, por ejemplo, por Friedman . Un algoritmo para calcular la distribución conjunta exacta de las sumas de rango de Friedman bajo el valor nulo se discute en . Para el caso especial de dos muestras emparejadas, consulte .

Calcular la estadística de prueba usando la distribución nula de (k !) n permutaciones posibles consume mucho tiempo si k es grande. Sin embargo, Friedman mostró que como n tiende al infinito , X 2 r converge en distribución a χ 2 df = k − 1, una variable aleatoria chi-cuadrada con grados de libertad k − 1. Este resultado se utiliza en la prueba asintótica de Friedman. La prueba de Friedman rechaza H 0 a un nivel de significación predeterminado α cuando el estadístico de la prueba X 2 r supera el percentil 100(1 − α)de la distribución límite de chi cuadrado de X 2 r con grados de libertad k-1 . La estadística de prueba debe ajustarse si hay rangos empatados dentro de los bloques . Además, se han propuesto varias modificaciones de la prueba de Friedman, por ejemplo , la distribución F como alternativa a la distribución chi-cuadrado, así como generalizaciones, como la estadística de la prueba Skillings-Mack para su uso en presencia de datos faltantes. Estos y otros ajustes y competidores no paramétricos a la prueba de Friedman (por ejemplo, Kruskal-Wallis, Quade, prueba de rangos alineados de Friedman) no se discuten aquí (ver).

Pruebas de comparación de pares y diferencia crítica aproximada

Con frecuencia, los investigadores no solo están interesados en probar la hipótesis global de la igualdad de grupos, sino también, o más aún, en inferir la igualdad de igualdad de pares de grupos. Además, incluso si uno está principalmente interesado en H 0 y la hipótesis es rechazada, se puede realizar un análisis de seguimiento para determinar las posibles razones del rechazo. Tal análisis puede revelar diferencias de grupo, pero también podría revelar que ninguno de los pares es significativamente diferente, a pesar de un resultado de prueba globalmente significativo.

Para abordar estos problemas, es conveniente probar hipótesis de igualdad para pares de grupos utilizando pruebas de comparación simultáneas. Estos procedimientos de comparación múltiple pueden implicar, en comparaciones de 1 × N (o muchas-una), probar hipótesis k − 1 de igualdad de todos los grupos no control contra el control del estudio o, en comparaciones N × N (todos los pares), considerar hipótesis k(k-1)/2 de igualdad entre todos los pares de grupos. Para ambos tipos de comparaciones, se han diseñado pruebas aproximadas de muestras grandes. Se derivan para la situación en la que n, el número de bloques (es decir, ‘tamaño de muestra’), es grande.

La tabla 2 muestra las pruebas aproximadas de diferencia crítica (CD) para comparaciones de 1 × N y N × N de sumas de rangos de Friedman, como se recomienda en monografías y artículos muy citados y libros de texto populares sobre estadísticas no paramétricas. La diferencia crítica es la diferencia mínima requerida en las sumas de rango para que un par de grupos difiera en el nivel de significación alfa preespecificado. Cabe señalar que en muchas publicaciones la estadística de CD se calcula utilizando la diferencia en los promedios de la suma de rangos, es decir, R j / n, en lugar de sumas de rangos. Los resultados son idénticos, ya que cada grupo tiene n observaciones, si las fórmulas estadísticas de la prueba se modifican apropiadamente.

Tabla 2 Pruebas aproximadas de diferencia crítica recomendada (CD) para comparaciones de 1 × N y N × N de sumas de rangos de Friedman

Cuando la hipótesis nula de equidistribución de rangos en n rankings independientes es verdadera, y la condición de un tamaño de muestra grande es met, las diferencias en las sumas de rango se distribuyen aproximadamente normalmente . Sea d = R i-R j, con i ≠ j, la diferencia de suma de rango entre un par de grupos i y j. El soporte de la diferencia de suma de rango d es el cierre . Bajo la hipótesis nula, el valor esperado E ( d) = 0 y la varianza Var(d) = nk(k + 1)/6 . Como la distribución de d es simétrica alrededor de E (d) = 0, la asimetría es cero, al igual que todos los momentos de orden impar. El coeficiente de curtosis, derivado por Whitfield como

$ $ \ mathrm {Kurt} (d)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\left( k+1\right)}, $ $

es menor que 3 (es decir, curtosis excesiva negativa), lo que implica que la distribución de diferencia de suma de rangos discretos tiene colas más delgadas que la normal. Observe, sin embargo, que la curtosis tiende a 3 con n creciente, por lo que una aproximación normal es razonable. Esto implica que d tiene una distribución asintótica N(0, Var(d)) y que la desviación normal \( d/\sqrt{\mathrm{Var}(d)} \) es asintóticamente N(0, 1).

Como se puede ver en la Tabla 2, la prueba aproximada normal es recomendada por varios autores cuando todos los grupos deben compararse entre sí en parejas. También es discutido por Demšar como una estadística de prueba que se empleará cuando todos los grupos se comparen con un solo control. Obsérvese que los procedimientos de ensayo normales controlan la tasa de error familiar de tipo I dividiendo el nivel global de significación α por el número de comparaciones realizadas (es decir, comparaciones c 1 en 1 × N y c 2 en comparaciones N × N). Hay competidores más poderosos disponibles para esta corrección de tipo Bonferroni, como los procedimientos Holm, Hochberg y Hommel. Estos métodos para controlar la tasa de error global de falsos positivos no se detallan en este documento. Para un tutorial en el ámbito de la comparación de clasificadores, vea Derrac et al. .

Además de la aproximación normal ordinaria, se han propuesto pruebas simultáneas que explotan la estructura de covarianza de la distribución de los valores de las diferencias en las sumas de rango. Mientras que las clasificaciones n son mutuamente independientes bajo H 0, las sumas de rango y las diferencias de suma de rango también son dependientes y correlacionadas. La correlación entre las diferencias de suma de rango depende de las sumas de rango involucradas. Específicamente, según lo informado por Miller , cuando la hipótesis nula es verdadera

$ $ \mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_i-{R}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l
\\mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_l-{R}_m\right)=0\kern2.25em i\ne j\ne l \ ne m.

Por lo tanto, la correlación es cero para pares de diferencias de suma de rangos sin grupo en común, y 0.5 para pares de diferencias con un grupo en común para ambas diferencias. El número de pares correlacionados disminuye a medida que k aumenta. Para un estudio con grupos k, la proporción de pares correlacionados es igual a 4 / (k + 1). Por lo tanto, cuando k = 7, por ejemplo, el 50% de los pares están correlacionados, pero cuando k = 79 solo el 5% están correlacionados.

Como se señaló en varios estudios (por ejemplo, ), para comparaciones de 1 × N, esta estructura de correlación implica que, cuando H 0 es verdadero y n tiende a infinito, la distribución de las diferencias entre las sumas de rango de grupo k − 1 y la suma de rango de control coincide con una distribución normal variada asintótica (k − 1) con medias cero. Por lo tanto, el valor de diferencia crítica se puede aproximar mediante el estadístico de prueba etiquetado como CD M en la Tabla 2, donde la constante \ ({m}_{\alpha, df = k-1,\rho = {\scriptscriptstyle \frac{1}{2}}} \) es el punto superior del percentil ath para la distribución del valor máximo de (k − 1) N(0,1) variables aleatorias igualmente correlacionadas con correlación común \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) El procedimiento tiene una tasa de error familiar asintótica igual a α .

Para comparaciones N × N, significa que la covarianza de las diferencias de suma de rangos es igual a la covarianza de las diferencias entre k variables aleatorias independientes con medias cero y varianzas nk(k + 1)/12. Por lo tanto, la distribución asintótica de \( max\left\{\left|{R}_i-{R}_j\right|\right\}/\sqrt{nk\left( k+1\right)/12} \) coincide con la distribución del rango (Q k,∞) de k variables aleatorias independientes N(0, 1). El estadístico de prueba asociado es CD Q, donde la constante q α, df = k,∞ es el punto del percentil ath superior de la distribución de rango (q) estudiada con grados de libertad (k,∞). De nuevo, como la prueba considera la diferencia absoluta de todos los grupos k simultáneamente, la tasa de error familiar asintótica es igual a α .

La prueba estadística de Friedman da lugar a la prueba simultánea mencionada en la fila inferior de la Tabla 2. La hipótesis nula se acepta si la diferencia en las sumas de rango no supera el valor crítico \ (C{D}_{\chi^2}. \ ) Esta aproximación asintótica de chi cuadrado se recomienda en algunos libros de texto populares, aunque Miller ha argumentado que la declaración de probabilidad no es la prueba más aguda.

Potencia estadística y pruebas alternativas

Tenga en cuenta que las estadísticas de pruebas de CD presentadas en la Tabla 2 no requieren información sobre los rangos dentro del bloque determinados en el experimento. Más bien, todas las pruebas de rango simultáneas asumen que dentro de cada bloque es igualmente probable que cada observación tenga algún rango disponible. Cuando esto es cierto, la cantidad (k + 1) (k − 1)/12 es la varianza de las clasificaciones dentro del bloque y nk (k + 1)/6 la varianza de la diferencia entre dos sumas de rango cualesquiera . Por lo tanto, la distribución nula de d en la población tiene media cero y desviación estándar conocida. Esta es la razón precisa por la que las pruebas aproximadas normales usan la puntuación z como estadística de prueba. Sin embargo, es importante enfatizar en este contexto que la raíz cuadrada de nk(k + 1)/6 es la desviación estándar de d cuando la hipótesis nula general es verdadera, pero no cuando es falsa. Se mantiene, similar a los valores p, solo en un modelo en particular, es decir, H 0; un modelo que puede o no ser verdadero. Si la hipótesis nula es falsa, la cantidad nk(k + 1)/6 es típicamente una sobreestimación de la varianza, y esto causa que las pruebas simultáneas, aproximadas y exactas, pierdan potencia.

Hay pruebas de comparación de pares para las sumas de rango de Friedman disponibles que se calculan en las puntuaciones de rango observadas en lugar de las sumas de rango. Estas pruebas , como la prueba de Rosenthal-Ferguson y la popular prueba de Conover, utilizan el t-score como estadística de prueba. Las pruebas t en parejas a menudo son más potentes que las pruebas simultáneas mencionadas anteriormente, sin embargo, también hay inconvenientes. En resumen, la prueba de Rosenthal-Ferguson utiliza las varianzas y covarianza observadas de los puntajes de rango de cada par individual de grupos, para obtener un error estándar de d para la prueba de significación de la diferencia de suma de rango en pares. Este error estándar es válido tanto si la hipótesis nula de que no hay diferencia de pares es verdadera como si no. Sin embargo, junto a la restricción formal de la prueba de que n debe ser mayor que k + 1, la varianza de d puede estimarse mal, ya que normalmente hay pocos grados de libertad disponibles para la estimación de (co)varianza en aplicaciones de prueba de Friedman de muestras pequeñas. Además, las (co)varianzas observadas son diferentes para cada par de grupos. En consecuencia, no se deduce de la importancia de una diferencia de una suma de rango dada A de otra suma de rango B, que una tercera suma de rango C, más diferente de A que B, también sería significativamente diferente. Esta es una característica desagradable de la prueba.

La prueba de Conover estima la desviación estándar de d calculando un error estándar agrupado a partir de las (co)varianzas de los puntajes de rango observados de todos los grupos, aumentando así la potencia estadística. El método es similar a la prueba de Diferencia Menos Significativa protegida (LSD) de Fisher, aplicada a las puntuaciones de rango. En esta metodología, no se hace ningún ajuste para pruebas múltiples a los valores de p para preservar la tasa de error familiar en el nivel nominal de significación. Más bien, la prueba está protegida en el sentido de que no se realizan comparaciones de pares a menos que la estadística general de la prueba sea significativa. Al igual que en el procedimiento de LSD protegido de Fisher, la prueba de Conover tiene la propiedad de incorporar el valor F observado de la prueba general en el proceso de decisión inferencial. Sin embargo, a diferencia del LSD protegido de Fisher, que utiliza el valor F observado solo de una manera 0-1 (‘go/no go’), la prueba Conover utiliza el valor F de una manera suave al calcular el LSD. Es decir, tiene la característica inusual de que cuanto mayor es la estadística de prueba general, menor es el umbral de diferencia menos significativa para declarar que una diferencia de suma de rango es significativa. La prueba Duncan-Waller tiene esta misma característica, pero esta prueba aboga por un enfoque bayesiano para comparaciones múltiples con el LSD Bayes. Como las pruebas de comparación en la segunda etapa están condicionadas al resultado de la primera etapa, el nivel alfa nominal utilizado en la prueba de Conover por pares no tiene un significado probabilístico real en el sentido frecuentista. Como señalaron Conover e Iman (: 2), » Dado que el nivel α de la prueba de segunda etapa generalmente no se conoce, ya no es una prueba de hipótesis en el sentido habitual, sino más bien un criterio conveniente para separar algunos tratamientos de otros.»

Distribución exacta y cálculo rápido del valor de p

Presentamos una prueba exacta para la comparación simultánea de pares de sumas de rangos de Friedman. La distribución nula exacta se determina utilizando el método de función generadora de probabilidad. Las funciones de generación proporcionan una forma elegante de obtener distribuciones de probabilidad o frecuencia de estadísticas de pruebas sin distribución . La aplicación del método de función generadora da lugar al siguiente teorema, cuya prueba se encuentra en el archivo Adicional 1.

Teorema 1 Para n clasificaciones de valores enteros mutuamente independientes, cada una con puntuaciones de rango igualmente probables que van de 1 a k, la probabilidad exacta de obtener una diferencia en pares d para dos sumas de rango cualesquiera es igual a

$ $ P\left( D= d; k, n\right)={\left\{ k\left( k-1\right)\right\}}^ {- n} W\left( D= d; k, n\right), $ $

donde

W W\left( D= d; k, n\derecho)={\left\{ k\left( k-1\right)\derecho\}}^n{\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k\derecho)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\derecho)}^{\left( j – i\derecho)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\derecho)- d+ h-1\hfill \\ {}\hfill k\left( j – i\derecho)- d – h\hfill \end{array}\right) $$

es el número de formas distintas en las que puede surgir una diferencia de suma de rango de d, con d teniendo soporte en d = .

El archivo adicional 1 también ofrece una expresión de forma cerrada para el valor p exacto de d. El valor p se define como la probabilidad de obtener un resultado al menos tan extremo como el observado, dado que la hipótesis nula es verdadera. Se obtiene como la suma de las probabilidades de todos los posibles d, para la misma k y n, que son tan probables o menos probables que el valor observado de d bajo el valor nulo. El valor de p exacto se denota P (D ≥ d; k, n), y se calcula utilizando la expresión

$ $ \begin {array} {l} P\left (D\ge d; k, n\derecho)={\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k\derecho)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\derecho)}^{\left( j – i\derecho)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\derecho)- d+ h\hfill \\ {}\hfill k\left( j – i\derecho)- d – h\hfill \end{array}\derecho)\\ {} \kern27.5em d=- n\left( k-1\derecho),\dots, n\left( k-1\right).\ end{array}

Calcular el valor p exacto con esta expresión de suma triple proporciona una aceleración de órdenes de magnitud sobre la enumeración completa de todos los resultados posibles y sus probabilidades mediante un enfoque de permutación de fuerza bruta. Para valores más grandes de n, sin embargo, el cálculo exacto consume algo de tiempo y para ampliar el rango práctico para realizar pruebas exactas, es deseable calcular el valor p de manera más eficiente.

Además, debido a que en la práctica las pruebas de comparación múltiples se refieren a las diferencias absolutas, es conveniente calcular la probabilidad acumulada del valor absoluto de las diferencias en las sumas de rango. Como el número de puntos de masa de la distribución simétrica de d es un entero de la forma 2n (k − 1) + 1, la distribución tiene un número impar de probabilidades. Esto implica que, como la función de masa de probabilidad de d es simétrica alrededor de cero, la masa de probabilidad a la izquierda de d = 0 puede doblarse, lo que resulta en una distribución plegada de d no negativo. En consecuencia, el valor p unilateral de d no negativo en el rango d = 1,…, n(k-1) puede obtenerse como la suma de los dos valores p unilaterales de la distribución simétrica con soporte d = . Como duplicar el valor de p unilateral conduce a un valor de p para d = 0 que excede la unidad, el valor de p para d = 0 (solo) se calcula como P(D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1), y esto es exactamente igual a 1.

Para acelerar el cálculo, transformamos la suma doble sobre los índices i y j en la expresión para P(D ≥ d; k, n) a una suma sobre un solo índice, por ejemplo, usando el teorema 2. La prueba se presenta en el expediente adicional 2.

el Teorema 2 Para los números enteros no negativos d y k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\derecho)}^{\left( j – i\derecho)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\derecho)- d+ h\hfill \\ {}\hfill k\left( j – i\derecho)- d – h\hfill \end{array}\right)={\displaystyle \sum_{s=0}^h{\left(-1\derecho)}^s}\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill k s- d + h\hfill \ \ {} \ hfill k s-d-h\hfill \ end{array} \ right). $ $

Esta reducción a una función de suma única implica que el valor p puede calcularse alternativamente a partir de la expresión mucho más simple

$ $ P \ left (D \ ge \\ left / d \ right|; k, n\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\frac{1}{k^h{\left(1 – k\derecho)}^n}{\displaystyle \sum_{s=0}^h{\left(-1\derecho)}^s\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill ks – d+ h\hfill \\ {}\hfill ks – d – h\hfill \end{array}\right)}, \kern1.8em d=1,\dots, n\left( k-1\right)\hfill \\ {}1\kern22.5em d=0,\kern3em \end{array}\right. $ $

y, como mostraremos, incluso para valores más grandes de n de una manera computacionalmente rápida.

Implementación de software

Aunque las dos expresiones para el valor p exacto son matemáticamente correctas, la computación directa puede producir errores de cálculo. Incluso para valores moderados de n (20 aproximadamente), el coeficiente binomial que tiene d en los índices puede llegar a ser extremadamente grande y almacenar estos números para la multiplicación posterior crea un desbordamiento numérico debido a la limitación de precisión de la aritmética de precisión fija. Una forma de abordar este fallo es usar una relación de recurrencia que satisfaga la función generadora . Las recursiones que examinamos eran todas computacionalmente costosas de ejecutar, sin embargo, excepto para valores pequeños de n y/o k. Una forma más rápida de calcular correctamente el valor p exacto es usar cálculos aritméticos de precisión arbitraria para tratar con números que pueden ser de gran tamaño arbitrario, limitados solo por la memoria disponible de la computadora.

El cálculo del valor p de la diferencia de suma de rango absoluto d dado k y n se implementa en R . El código R, que requiere que se instale el paquete Rmpfr para la aritmética de alta precisión, se encuentra en el archivo Adicional 3. El script denominado pexactfrsd calcula el valor p exacto P(D ≥ |d|), y además ofrece la posibilidad de calcular la probabilidad P (D = |d|), y el número (acumulativo) de composiciones de d(es decir, W(D = |d|) y W (D ≥ |d|)). El código R y las posibles actualizaciones futuras también están disponibles en http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

Para ilustrar las derivaciones, el archivo adicional 4 ofrece un ejemplo numérico de pequeño tamaño (k = 3, n = 2), y el archivo adicional 5 tabula el número de composiciones de d para combinaciones de k = n = 2,…, 6, para su inclusión en el OEIS . Como se puede ver en el archivo Adicional 5, para valores pequeños de n, la distribución simétrica desplegada de d es bimodal, con modos en + 1 y – 1 . Esta característica desaparece rápidamente a medida que n aumenta, específicamente, para k > 2 a n ≥ 6.

De aquí en adelante, a menos que se indique lo contrario, consideraremos que el valor de la diferencia de suma de rango d es cero o positivo, que varía de 0 a n(k − 1), y por lo tanto eliminaremos el símbolo de valor absoluto alrededor de d.

Clasificaciones incompletas

Debido a que las clasificaciones n {1,2, k,k} son mutuamente independientes, podemos dividirlas en dos (o más) partes de tamaño igual o desigual, etiquetadas (D 1; k, n 1) y (D 2; k, n 2), con ∑ 2 t = 1 D t = D, y D t que denota las diferencias en las sumas de rango de las dos partes. El exacto valor de p se puede obtener utilizando

$ P$\left( D\ge d, k, n\derecho)= P\left( D\ge d; k{n}_1,{n}_2\derecho)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} P\left({D}_1= i; k{n}_1\derecho)}\times P\left({D}_2\ge \a la izquierda( d – i\derecho); k,{n}_2\right),

donde, como indica el límite inferior de la suma, el cálculo se realiza utilizando la expresión de valor p que permite d negativo. Una propiedad única y útil del método exacto, que no es compartida por los métodos aproximados discutidos, es que es fácil calcular probabilidades de valor p para diseños con tamaños de bloque desiguales k; por ejemplo, diseños en los que n 1 tiene rangos {1, 2, k, k 1}, y n 2 rangos {1, 2,…, k 2}, con k 1 ≠ k 2. Una expresión general para el cálculo de la exacta p-valor incompleto diseños con j desigual tamaño de las piezas es

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\derecho)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\derecho)}^{n_1\left({k}_1-1\derecho)}{\displaystyle \sum_{i_2=-{n}_2\left({k}_2-1\derecho)}^{n_2\left({k}_2-1\derecho)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\derecho)}^{n_{j-1}\left({k}_{j-1}-1\derecho)}} P\left({D}_1={i}_1;{k}_1,{n}_1\derecho) \times }}\ \\ {}\kern4.25em \\ {}\kern4em P\left({D}_2={i}_2;{k}_2,{n}_2\derecho)\times \cdots \times P\left({D}_{j-1}={i}_{j-1};{k}_{j-1},{n}_{j-1}\derecho)\times P\left({D}_j\ge \left( d-{i}_1-{i}_2\cdots -{i}_{j-1}\derecho);{k}_j,{n}_j\derecho)\end{array} $$

donde ∑ j t = 1 D t = D, y un ejemplo en el que n se divide en tres partes, cada una con un único valor de k (k 1, k 2, k 3), es

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\derecho)={\displaystyle \sum_{i=-{n}_1\left({k}_1-1\derecho)}^{n_1\left({k}_1-1\derecho)}{\displaystyle \sum_{j=-{n}_2\left({k}_2-1\derecho)}^{n_2\left({k}_2-1\derecho)} P\left({D}_1= i;{k}_1,{n}_1\derecho) \times }}\\ {}\\ {}\kern13.5em P\left({D}_2= j;{k}_2,{n}_2\derecho)\times P\left({D}_3\ge \a la izquierda( d – i – j\derecho);{k}_3,{n}_3\derecho).\end{array}

Aunque las funciones de suma ralentizan el cálculo, esta característica única del cálculo exacto del valor de p permite realizar pruebas de significación simultáneas válidas cuando faltan algunos rangos dentro del bloque por diseño. Tales pruebas serían difíciles de realizar utilizando uno de los métodos de aproximación de muestras grandes. Se dará un ejemplo empírico en la sección de Aplicaciones.

Valores p exactos y medios

Como las diferencias en pares con soporte en d = se distribuyen simétricamente alrededor de cero por debajo de H 0, duplicar el valor p unilateral es la opción más natural y popular para una prueba exacta ordinaria. Una prueba que utiliza un valor de p exacto garantiza que la probabilidad de cometer un error de tipo I no excede el nivel nominal de significancia. Sin embargo, como la tasa de error de tipo I siempre está por debajo del nivel nominal, una prueba de significancia con un valor p exacto es un enfoque conservador para la prueba, especialmente si la prueba involucra una distribución altamente discreta . El valor p medio, comúnmente definido como la mitad de la probabilidad de una estadística observada más la probabilidad de valores más extremos, es decir,

$ $ {P}_{\mathrm{mid}}\left( D\ge d; k, n\right)={\scriptscriptstyle \frac{1}{2}} P\left( D= d\right)+ P\left( D> d\right), $ $

mejora este problema. El valor p medio siempre está más cerca del nivel nominal que el valor p exacto, a expensas de superar ocasionalmente el tamaño nominal.

Clasificaciones empatadas

El valor de p medio también se puede usar para manejar clasificaciones empatadas. Cuando los empates ocurren dentro de bloques, el rango medio (es decir, el promedio de los rangos) se asigna comúnmente a cada valor empatado. Si, como resultado de rangos empatados, la diferencia de suma de rangos observada es un valor entero d más 0.5, el valor p se puede obtener como el promedio de los valores p exactos de los enteros adyacentes d y d + 1, es decir, \ ({\scriptscriptstyle \frac{1}{2}}\left,\) y esto es equivalente al valor p medio. Cabe señalar que la probabilidad resultante no es exactamente válida. Los valores p exactos representan probabilidades de frecuencia exactas de ciertos eventos, y los valores p medios no tienen tal interpretación de frecuencia. Se puede argumentar, sin embargo, que esta desventaja interpretativa es de poca preocupación práctica y que el uso de valores de p medios es un enfoque de frecuencia casi exacta. Para una discusión de otros tratamientos de los lazos en las pruebas de rango, ver .