Articles

Exato de p-valores para os pares de comparação de Friedman classificação de contas, com aplicação de comparação de classificadores

Friedman dados

Para executar o teste de Friedman para os dados observados estão dispostas na forma de uma completa duas vias de layout, como no Quadro 1, onde k linhas representam os grupos (classificadores) e n colunas representam os blocos (conjuntos de dados).

Tabela 1-Duas vias do layout para o teste de Friedman

Os dados consistem de n blocos com k observações dentro de cada bloco. Considera-se que as observações em blocos diferentes são independentes. Esta suposição não se aplica às observações k dentro de um bloco. O procedimento de teste permanece válido apesar das dependências internas do bloco . A estatística de teste de Friedman é definida em dados classificados de modo que, a menos que os dados brutos originais sejam pontuações de rank avaliadas por inteiro, os dados brutos são transformados por rank. As entradas de rank no quadro 1B são obtidas ordenando primeiro os dados raw {x ij ; i = 1,…, n, j = 1,…, k} na coluna da tabela 1A, do mínimo ao maior,dentro de cada um dos blocos n separadamente e independentemente, e então atribuir os inteiros 1,…, k como os pontuações de rank das observações k dentro de um bloco. A soma das fileiras de qualquer grupo j é a soma das classificações definida como r j = ∑ n i = 1 r ij .

hipótese nula

a hipótese nula geral do teste de Friedman é que todas as amostras bloqueadas em k, cada uma com o tamanho n, vêm de distribuições de população idênticas mas não especificadas. Para especificar esta hipótese nula em mais detalhes, deixe X ij denotar uma variável aleatória com função de distribuição cumulativa desconhecida F ij, e deixe x ij denotar a realização de X ij .

a hipótese nula pode ser definida de duas formas, dependendo se os blocos são fixos ou aleatórios . Se os blocos forem fixos, todos os valores de medição de k × n são independentes. Se existem k grupos designados aleatoriamente para manter k relacionado X ij dentro de cada bloco, como em um estudo randomizado bloco completo de design, então a hipótese nula de que os k grupos idênticos distribuições podem ser formulados como

H 0 : F i1(x) = … = F ik (x) = F i (x) para cada i = 1, …, n,

onde F i (x) é a distribuição de observações no i-ésimo bloco . A mesma hipótese, mas mais específica, é obtida se o modelo aditivo usual for assumido como tendo gerado o x ij no layout bidirecional . O modelo aditivo decompõe o efeito total sobre o valor de medição num efeito global μ, efeito de bloco I β i e efeito de grupo j τ J. Se a função de distribuição é denotada F ij (x) = F(x − µ − β i − τ j ), a hipótese nula de nenhuma diferenças entre os k grupos pode ser declarado como

$$ {H}_0:\kern0.5em {\tau}_1=\dots ={\tau}_k, $$

e, em geral, hipótese alternativa, como

\( {H}_1:\kern0.5em {\tau}_{j_1}\ne {\tau}_{j_2} \) para pelo menos um j 1, j 2) par.

Note que esta representação também afirma que a distribuição subjacente funções F i1(x), …, F ik (x) dentro do bloco i são o mesmo, i.é., que F i1(x) = … = F ik (x) = F i (x), fixo para cada i = 1, …, n.

Se os blocos são aleatórios, medições de um mesmo bloco aleatório será positivamente correlacionados. Por exemplo, se um único sujeito forma um bloco e observações k são feitas sobre o assunto, possivelmente em ordem aleatória, As observações dentro do bloco são dependentes. Esta dependência ocorre num desenho de medidas repetidas em que os indivíduos n são observados e cada indivíduo é testado em condições k. Denote a função de distribuição conjunta de observações dentro do Bloco i Por F i (x 1, …, x k ). Em seguida, a hipótese nula de nenhuma diferenças entre os k grupos é a hipótese de permutabilidade das variáveis aleatórias X i1, …, X ik , formulado como:

H 0 : F i (x 1, …, x k ) = F i (x σ(1), …, x σ(k)), para i = 1, …, n,

onde σ(1), …, σ(k) denota qualquer permutação de 1, …, k. O modelo subjacente a esta hipótese é que as variáveis aleatórias X ij têm uma distribuição trocável. Trata-se de um modelo adequado para medidas repetidas, em que não é adequado assumir a independência dentro de um bloco . Notamos também que esta formulação da hipótese nula e a dos blocos fixos são consistentes contra a mesma alternativa, ou seja, a negação de H 0. Para uma discussão detalhada sobre este assunto, veja .

Se os blocos são fixos ou aleatórios, se a hipótese nula é verdadeira, então todas as permutações de 1, …, k são igualmente prováveis. Há k ! formas possíveis de atribuir pontuações k aos grupos k dentro de cada bloco e todas estas permutações intra-bloco são equiprobáveis sob H 0. Como o mesmo argumento de permutação se aplica a cada um dos n blocos independentes, existem (k !) n igualmente prováveis configurações de rank das Pontuações de rank r ij na disposição bidirecional . Cada uma destas permutações tem uma probabilidade de (k !)- n de ser realizado. Esta característica é usada para avaliar a distribuição nula das somas de rank R j, enumerando todas as permutações do layout de duas vias das fileiras.

Friedman test statistic

Under The Friedman null hypothesis, the expected row sum of ranks for each group equals n(k + 1)/2. O teste de Friedman estatística

$$ {X}_r^2=\frac{12}{nk\left( k+1\right)}{\displaystyle \sum_{j=1}^k{\left\{{R}_j – n\left( k+1\right)/2\right\}}^2} $$

a soma de desvios quadrados do observado rank soma para cada grupo, R j , do comum, o valor esperado para cada grupo, n(k + 1)/2, sob o pressuposto de que o grupo k distribuições são idênticos. Para pequenos valores de k E n, A distribuição exata de X 2 r foi apresentada, por exemplo, por Friedman . Um algoritmo para computar a distribuição conjunta exata das somas de Friedman rank sob o null é discutido em . Para o caso especial de duas amostras emparelhadas, ver .calcular a estatística do ensaio utilizando a distribuição nula do (k !) n possíveis permutações é demorado se k é grande. However, Friedman showed that as n tends to infinity, X 2 r converges in distribution to χ 2 df = k-1, a chi-squared random variable with k − 1 degrees of freedom. Este resultado é usado no teste assintótico Friedman. O ensaio de Friedman rejeita H 0 a um nível de significância pré-especificado α quando a estatística do Ensaio X 2 r exceder o percentil 100(1 − α)da distribuição limitante chi-quadrado de X 2 r com k − 1 graus de liberdade . A estatística do ensaio deve ser ajustada se existirem filas amarradas dentro de blocos . Além disso, várias modificações do teste Friedman foram propostas , por exemplo a distribuição F como uma alternativa à distribuição chi-quadrado, bem como generalizações, como as estatísticas de teste Skillings-Mack para uso na presença de dados em falta. Estes e vários outros ajustes e competidores não paramétricos para o teste Friedman (por exemplo, Kruskal-Wallis, Quade, Friedman Allied ranks test) não são discutidos aqui (ver ).

testes comparativos emparelhados e diferença crítica aproximada

frequentemente, os pesquisadores não estão apenas interessados em testar a hipótese global da igualdade de grupos, mas também, ou ainda mais, em inferência sobre a igualdade de igualdade de pares de grupos. Além disso, mesmo que a pessoa esteja principalmente interessada em h 0 e a hipótese seja rejeitada, uma análise de acompanhamento pode ser realizada para determinar possíveis razões para a rejeição. Tal análise pode revelar diferenças de grupo, mas também pode revelar que nenhum dos pares é significativamente diferente, apesar de um resultado de teste globalmente significativo.

para abordar estas questões é conveniente testar hipóteses de igualdade para pares de grupos usando testes de comparação simultâneos. Estes procedimentos de comparação múltipla podem envolver, em comparações de 1 × n (ou muitas-Uma), testes de hipóteses k − 1 de igualdade de todos os grupos Não-controle contra o controle do estudo ou, em comparações n × N (Todos-pares), considerando K(k − 1)/2 hipóteses de igualdade entre todos os pares de grupos. Para ambos os tipos de comparações, foram concebidos ensaios aproximados de grandes amostras. Eles são derivados para a situação em que n, o número de blocos (ou seja, “tamanho da amostra”), é grande.

A Tabela 2 mostra a diferença crítica (CD) testes aproximados para 1 × N E n × n comparações de Friedman rank sums, como recomendado em monografias e artigos altamente citados e livros didáticos populares sobre Estatísticas não paramétricas. A diferença crítica é a diferença mínima exigida nas somas de classificação para um par de grupos para diferir no nível alfa pré-especificado de significância. É de notar que em muitas publicações a estatística de CD é calculada usando a diferença na média de rank sum, isto é, R j /n, ao invés de rank sums. Os resultados são idênticos, uma vez que cada grupo tem Observações n, Se as fórmulas estatísticas do ensaio forem modificadas adequadamente.

Tabela 2, Recomendado diferença crítica (CD) aproximado testes por 1 × N e N × N comparações de Friedman rank somas

Quando a hipótese nula de equidistribution de fileiras, n rankings independentes é verdadeira, e a condição de um grande tamanho de amostra é atendida, as diferenças na classificação somas são aproximadamente normalmente distribuída . Seja d = r i-R j, COM i ≠ j, ser a diferença de soma de rank entre um par de grupos i e J. O apoio da diferença de soma de rank d é o encerramento. Sob a hipótese nula, o valor esperado E(d) = 0 e a variância Var(D) = NK (k + 1)/6 . Como a distribuição de d é simétrica em torno de E ( d) = 0, a inclinação é zero, assim como todos os momentos de ordem ímpares. O coeficiente de curtose, derivado por Whitfield, como

$$ \mathrm{Kurt}(d)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\left( k+1\right)}, $$

é menor do que 3 (i.é., negativa, excesso de curtose), o que implica que o discreto rank sum diferença de distribuição tem caudas mais fino do que o normal. Note, no entanto, que a kurtosis tende a 3 com n crescente, assim uma aproximação normal é razoável. Isto implica que d tem uma distribuição assintótica N (0, Var (d)) e que o desvio normal \( d/\sqrt{\mathrm{Var}(d)}\) é assintoticamente n(0, 1).

Como pode ser visto na Tabela 2, o teste normal aproximado é recomendado por vários autores quando todos os grupos devem ser comparados uns com os outros. Também é discutido pela Demšar como uma estatística de teste a ser empregado quando todos os grupos são comparados com um único controle. Note – se que os procedimentos normais de ensaio controlam a taxa de erro do tipo I em sentido familiar dividindo o nível global de significância α pelo número de comparações efectuadas (ou seja, C 1 em 1 × N E C 2 em n × N comparações). Existem concorrentes mais poderosos para esta correção de tipo Bonferroni disponível, como os procedimentos Holm, Hochberg e Hommel. Estes métodos para controlar a taxa de erro falso positivo geral não são elaborados neste artigo. For a tutorial in the realm of classifier comparison, see Derrac et al. .

além da aproximação normal Ordinária, foram propostos testes simultâneos que exploram a estrutura de covariância da distribuição dos valores das diferenças em valores de classificação. Enquanto que os rankings N são mutuamente independentes sob h 0, as somas de rank e as diferenças de rank sum são dependentes e correlacionados também. A correlação entre as diferenças de soma de rank depende das somas de rank envolvidas. Especificamente, como relatado por Miller , quando a hipótese nula é verdadeira

$$ \mathrm{C}\mathrm{o}\mathrm{i}\left({R}_i-{R}_j,{R}_i-{R}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$
$$ \mathrm{C}\mathrm{o}\mathrm{i}\left({R}_i-{R}_j,{R}_l-{R}_m\right)=0\kern2.25em i\ne j\ne l\ne m. $$

Portanto, a correlação é zero para os pares de classificação soma diferenças com nenhum grupo em comum, e 0,5 para os pares de diferenças com um grupo em comum para ambas as diferenças. O número de pares correlacionados diminui à medida que k aumenta. Para um estudo envolvendo grupos k, a proporção de pares correlacionados é igual a 4/(k + 1) . Assim, quando k = 7, por exemplo, 50% dos pares estão correlacionados, mas quando k = 79 apenas 5% estão correlacionados.

Como observado em vários estudos (por exemplo,), para comparações 1 × n Esta estrutura de correlação implica que, quando H 0 é verdadeiro e n tende ao infinito, a distribuição das diferenças entre as somas de rank de grupo k − 1 e a soma de rank de controle coincide com uma distribuição normal assintótica (k − 1) variada com meios nulos. A diferença crítica do valor, portanto, pode ser aproximada pelo teste estatístico rotulado CD M, na Tabela 2, onde a constante \( {m}_{\alpha, gl= k-1,\rho ={\scriptscriptstyle \frac{1}{2}}} \) é o superior ath percentil ponto para a distribuição do valor máximo de (k − 1) igualmente correlacionada N(0,1) variáveis aleatórias com correlação comuns \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) O procedimento tem uma taxa de erro assintótica familiar igual a α .

para comparações n × n, significa que a covariância das diferenças de soma de rank é igual à covariância das diferenças entre variáveis aleatórias independentes de k com Média zero e variâncias nk(k + 1)/12. Assim, a distribuição assintótica de \( max\left\{\left|{R}_i-{R}_j\right|\right\}/\sqrt{nk\left( k+1\right)/12} \) coincide com a distribuição do intervalo (Q k,∞) de k independente de N(0, 1) variáveis aleatórias. A estatística de teste associada é CD Q, onde a constante q α, df = k,∞ é o ponto percentual superior do intervalo Studentizado (q) distribuição com (k, ∞) graus de liberdade . Mais uma vez, como o teste considera a diferença absoluta de todos os grupos k simultaneamente, a taxa de erro assintótico familiar é igual a α .o próprio ensaio estatístico Friedman dá origem ao ensaio simultâneo mencionado na linha inferior do quadro 2. A hipótese nula é aceita se a diferença nas somas rank não exceder o valor crítico \ (C{D}_{\chi^2}. \ ) Esta aproximação assintótica chi-quadrado é recomendada em alguns livros populares, embora Miller tenha argumentado que a declaração de probabilidade não é o mais afiado dos testes.

potência estatística e ensaios alternativos

Note que as estatísticas de ensaios de CD apresentadas no quadro 2 não necessitam de informação sobre as fileiras dos blocos, tal como determinado na experiência. Em vez disso, os testes de classificação simultâneos assumem que dentro de cada bloco cada observação é igualmente provável que tenha qualquer posto disponível. Quando isso é verdade, a quantidade (k + 1)(k − 1)/12 é a variância dos rankings dentro do bloco e nk(k + 1)/6 a variância da diferença entre quaisquer duas somas rank . Assim, a distribuição nula de d na população tem média zero e desvio padrão conhecido. Esta é a razão exacta pela qual os ensaios aproximados normais utilizam a pontuação z como estatística de ensaio. No entanto, é importante enfatizar neste contexto que a raiz quadrada de nk(k + 1)/6 é o desvio padrão de d Quando a hipótese nula Global é verdadeira, mas não quando é falsa. Possui, similar aos valores p, apenas em um modelo particular, ou seja, H 0; um modelo que pode ou não ser verdadeiro. Se a hipótese nula for falsa, a quantidade nk(k + 1)/6 é tipicamente uma sobre-estimativa da variância, e isso faz com que testes simultâneos, aproximados e exatos, percam potência.

existem testes de comparação emparelhados para as somas disponíveis da classificação de Friedman que são computadas nas pontuações observadas da classificação ao invés das somas da classificação. Estes testes , como o teste Rosenthal-Ferguson e o popular Teste Conover, usam a pontuação t como estatística de teste. Os testes-T emparelhados são muitas vezes mais poderosos do que os testes simultâneos discutidos acima, no entanto, também há desvantagens. Em resumo, o teste de Rosenthal-Ferguson usa as variâncias observadas e covariância das Pontuações de cada par individual de grupos, para obter um erro padrão de d para o teste de significância da diferença da soma dos rank emparelhados. Este erro padrão é válido se a hipótese nula de nenhuma diferença emparelhada é verdadeira ou não. No entanto, ao lado da restrição formal do teste de que n deve ser maior que k + 1, a variância de d pode ser estimada mal, uma vez que existem tipicamente poucos graus de liberdade disponíveis para (co-)estimativa de variância em aplicações de teste de Friedman de pequena amostra. Além disso, as variações observadas (co-)são diferentes para cada par de grupos. Consequentemente, não decorre da significância de uma diferença de uma dada soma de uma dada ordem A de outra soma de ordem B, que uma soma de terceira ordem C, mais diferente de A do que B, também seria significativamente diferente. Esta é uma característica desagradável do teste.

O teste de Conover estima o desvio padrão de d computando um erro padrão conjunto das variâncias (co-)das Pontuações observadas dos rank de todos os grupos, aumentando assim o poder estatístico. O método é semelhante ao teste de diferença menos significativa (LSD) protegido de Fisher, aplicado às pontuações de rank. Nesta metodologia, não é efectuado qualquer ajustamento para a realização de ensaios múltiplos dos valores p, a fim de preservar a taxa de erro familiar ao nível nominal de significância. Pelo contrário, o ensaio é protegido no sentido de que não são efectuadas comparações emparelhadas, a menos que a estatística global do ensaio seja significativa. Tal como no procedimento LSD protegido por Fisher, o teste Conover tem a propriedade de incorporar o valor-F observado do teste global no processo de decisão inferencial. No entanto, em contraste com o LSD protegido por Fisher, que usa o valor-F observado apenas em uma maneira 0-1 (‘go/no go’), o teste Conover usa o valor-F de uma maneira suave ao computar o LSD. Ou seja, tem a característica incomum de que quanto maior a estatística geral do teste, menor o limiar de diferença menos significativo é para declarar uma diferença de soma de rank para ser significativo. O teste Duncan-Waller tem essa mesma característica, mas este teste defende uma abordagem Bayesiana para várias comparações com o Bayes LSD. Uma vez que os ensaios de comparação na segunda fase estão condicionados ao resultado da primeira fase, o nível alfa nominal utilizado no ensaio de Conover emparelhado não tem um significado probabilístico real no sentido freqüente. Como assinalado por Conover e Iman (: 2), ” Uma vez que o nível α do teste da segunda fase não é geralmente conhecido, não é mais um teste de hipótese no sentido usual, mas apenas um critério conveniente para separar alguns tratamentos de outros.”

distribuição exata e cálculo rápido do valor p

apresentamos um teste exato para comparação simultânea em pares das somas de Friedman rank. A distribuição nula exata é determinada usando o método da função geradora de probabilidade. As funções geradoras fornecem uma forma elegante de obter as distribuições de probabilidade ou frequência das estatísticas de ensaios sem distribuição . A aplicação do método da função geradora dá origem ao seguinte teorema, cuja prova está no arquivo adicional 1.

Teorema 1 Para n mutuamente independente de número inteiro com valor de classificações, cada uma com a mesma probabilidade de classificação escores variando de 1 a k, a probabilidade exata de obter pairwise diferença d para qualquer uma das duas rank soma é igual a

$$ P\left( D= d, k, n\right)={\left\{ k\left( k-1\right)\right\}}^{- n} W\left( D= d, k, n\right), $$

onde

$ W$\left( D= d; k, n\right)={\left\{ k\left( k-1\right)\right\}}^n{\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h-1\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right) $$

é o número de formas distintas uma diferença de soma de rank de d pode surgir, com d tendo suporte Em d = .

ficheiro adicional 1 também oferece uma expressão de forma fechada para o valor p exacto de D. O valor p é definido como a probabilidade de obter um resultado pelo menos tão extremo como o observado, dado que a hipótese nula é verdadeira. É obtida como a soma das probabilidades de toda a d possível, para o mesmo k e n, que são tão prováveis ou menos prováveis do que o valor observado de d sob o null. O valor exacto de p é denotado por P (D ≥ d; k, n), e é calculado usando a expressão

$ \begin{array}{l} P\left (D\ge d; k, n\right)={\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right),\\ {}\kern27.5em d=- n\left( k-1\right),\dots, n\left( k-1\right).\end{array} $

calculando o valor p exato com esta expressão de soma tripla fornece uma velocidade de ordens de magnitude sobre a enumeração completa de todos os resultados possíveis e suas probabilidades por uma abordagem de permutação de Força bruta. Para valores maiores de n, No entanto, o cálculo exato é um pouco demorado e para estender a gama prática para a realização de testes exatos, é desejável calcular o valor p de forma mais eficiente.

também, porque na prática os testes de comparação múltipla estão preocupados com diferenças absolutas, é conveniente calcular a probabilidade cumulativa do valor absoluto das diferenças em valores de classificação. Como o número de pontos de massa da distribuição simétrica de d é um inteiro da forma 2n(k − 1) + 1, a distribuição tem um número ímpar de probabilidades. Isto implica que, como a função de massa de probabilidade de d é simétrica em torno de zero, a massa de probabilidade à esquerda de d = 0 pode ser dobrada, resultando em uma distribuição dobrada de d não-negativo. Consequentemente, o valor-p unilateral de d não-negativo no intervalo d = 1,…, n(k − 1) pode ser obtido como a soma dos dois valores-p unilaterais da distribuição simétrica com suporte d = . Como dobrar um lado p-valor conduz a um valor de p para d = 0, que excede a unidade, o valor de p para d = 0 (apenas) é calculado como P(D ≥ 0, k, n) = P(D = 0) + P(D ≥ 1), e este é exatamente igual a 1.

para acelerar a computação, nós transformamos a soma dupla sobre os índices i E j na expressão para P(d ≥ d; k, n) para uma soma sobre um único índice, S digamos, usando o teorema 2. A prova é fornecida no arquivo adicional 2.

Teorema 2 Para inteiros n ao negativos d e k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right)={\displaystyle \sum_{s=0}^h{\left(-1\right)}^s}\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill k s- d + h\hfill \\ {}\hfill k S – d-h\hfill \end{array}\right). $$

esta redução para uma função de soma única implica que o valor-p pode, em alternativa, ser calculado a partir da expressão muito mais simples

$ p\left (D\ge\ left| D\right|; k, n\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{s=0}^h{\left(-1\right)}^s\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill ks – d+ h\hfill \\ {}\hfill ks – d – h\hfill \end{array}\right)}, \kern1.8em d=1,\dots, n\left( k-1\right)\hfill \\ {}1\kern22.5em d=0,\kern3em \end{array}\right. $$

e, como veremos, mesmo para valores maiores de n de uma maneira computacionalmente rápida.

implementação de Software

embora as duas expressões para o valor exato de p sejam matematicamente corretas, computação direta pode produzir erros de cálculo. Mesmo para valores moderados de n (20 ou mais), o coeficiente binomial que tem d nos índices pode tornar-se extremamente grande e armazenar esses números para subsequente multiplicação cria transbordamento numérico devido à limitação de precisão da aritmética de precisão fixa. Uma maneira de resolver esta falha é usar uma relação de recorrência que satisfaça a função geradora . As recursões que examinamos eram todas computacionalmente caras de executar, no entanto, exceto para pequenos valores de n e / ou k. uma maneira mais rápida de calcular o valor p exato corretamente é usar computação aritmética de precisão arbitrária para lidar com números que podem ser de tamanho arbitrário grande, limitado apenas pela memória do computador disponível.

o cálculo do valor p da diferença da soma da ordem absoluta d dada k E n é implementado em R. O código R, que requer o pacote rmpfr para aritmética de alta precisão a ser instalado, está no arquivo adicional 3. O script chamado pexactfrsd calcula o valor p(d ≥ |d|) exato, e adicionalmente oferece a possibilidade de computar a probabilidade P(D = |d|), e o número (cumulativo) de composições de d (i.e., W(D = |d|) e W(d ≥ |d|)). O código R e potenciais atualizações futuras também estão disponíveis em http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

Para ilustrar as derivações, de arquivo Adicionais 4 oferece um pequeno-porte-exemplo numérico (k = 3, n = 2), e de arquivo Adicionais 5 apresenta o número de composições de d para combinações de k = n = 2,…,6, para inclusão na OEIS . Como pode ser visto no Arquivo 5 adicional, para pequenos valores de n A distribuição desdobrada, simétrica de d é bimodal, com modos a + 1 e − 1 . Esta característica desaparece rapidamente com o aumento de n, especificamente para k > 2 a n ≥ 6.

daqui em diante, salvo indicação em contrário, vamos considerar o valor da diferença de soma de rank d como sendo zero ou positivo, variando de 0 a n(k − 1), e, assim, cair o símbolo de valor absoluto em torno de D.

Incompleta classificação

Porque n classificações de {1,2,…,k} são mutuamente independentes, podemos dividi-los em dois (ou mais), iguais ou desiguais de tamanho de peças, rotulada (D 1, k, n, 1) e (D 2, k, n 2), com σ 2 t = 1 D t = D e D e t denota as diferenças na classificação soma das duas partes. O exato valor de p pode ser obtido usando

$$ P\left( D\ge d, k, n\right)= P\left( D\ge d, k, {n}_1,{n}_2\right)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} P\left({D}_1= i; k,{n}_1\right)}\times P\left({D}_2\ge \left( d – i\right); k,{n}_2\right), $$

onde – como indicado pelo somatório do limite inferior – o cálculo é realizado utilizando o p-valor da expressão que permite negativo d. Um útil e única propriedade do método exato, o que não é compartilhada pela aproximado métodos abordados, é que ele é fácil de calcular o p-valor de probabilidades para os desenhos e modelos com diferentes tamanhos de bloco k; por exemplo, projetos em que n 1 classificações de {1, 2, …, k 1}, e n 2 classificações de {1, 2, …, k 2}, com k 1 ≠ k 2. Uma expressão geral para calcular o exato valor de p incompleta de projetos com j desiguais de tamanho de peças

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{i_2=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\right)}^{n_{j-1}\left({k}_{j-1}-1\right)}} P\left({D}_1={i}_1;{k}_1,{n}_1\right) \vezes }}\ \\ {}\kern4.25em \\ {}\kern4em P\left({D}_2={i}_2;{k}_2,{n}_2\right)\times \cdots \vezes P\left({D}_{j-1}={i}_{j-1};{k}_{j-1},{n}_{j-1}\right)\vezes P\left({D}_j\ge \left( d-{i}_1-{i}_2\cdots -{i}_{j-1}\right);{k}_j,{n}_j\right),\end{array} $$

onde ∑ j t = 1 D t = D, e um exemplo em que n é subdividido em três partes, cada uma com um único valor de k (k 1, k 2, k 3), é

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\right)={\displaystyle \sum_{i=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{j=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)} P\left({D}_1= i;{k}_1,{n}_1\right) \vezes }}\\ {}\\ {}\kern13.5em P\left({D}_2= j;{k}_2,{n}_2\right)\vezes P\left({D}_3\ge \left( d – i – j\right);{k}_3,{n}_3\right).\end{array} $

embora as funções sum abranjam o cálculo, Esta característica única do cálculo exacto do valor-p permite a realização de testes de significância simultâneos válidos, sempre que algumas rank dentro do bloco estejam em falta por desenho. Tais testes seriam difíceis de realizar usando um dos métodos de aproximação de amostra grande. Um exemplo empírico será dado na seção de Aplicação.

valores p exactos e médios

como diferenças emparelhadas com suporte Em d = são simetricamente distribuídos em torno de zero sob H 0, duplicando o valor p unilateral é a escolha mais natural e popular para um teste EXACTO ordinário. Um teste que utilize o valor p EXACTO garante que a probabilidade de cometer um erro do tipo I não excede o nível nominal de significância. No entanto, como a taxa de erro Tipo-I está sempre abaixo do nível nominal, um teste de significância com valor p exato é uma abordagem conservadora para o teste, especialmente se o teste envolve uma distribuição altamente discreta . A meados de p-valor, comumente definida como a metade da probabilidade de uma observados estatística mais a probabilidade de mais valores extremos, isto é,

$$ {P}_{\mathrm{médio}}\left( D\ge d, k, n\right)={\scriptscriptstyle \frac{1}{2}} P\left( D= d\right)+ P\left( D> d\right), $$

melhora deste problema. O valor médio de p é sempre mais próximo do nível nominal do que o valor exato de p, à custa de ocasionalmente exceder o tamanho nominal.

rankings amarrados

o valor médio de p também pode ser usado para lidar com rankings amarrados. Quando os laços ocorrem dentro de blocos, o midrank (ou seja, a média das fileiras) é comumente atribuído a cada valor empatado. Se, como resultado de uma classificações associados, observadas rank sum diferença é um valor inteiro d acrescido de 0,5, o valor de p pode ser obtido como a média dos exata p-valores adjacentes de números inteiros d e d + 1, i.é., \ ( {\scriptscriptstyle \frac{1}{2}}\left, \) e isso é equivalente a meados de p-valor. É de notar que a probabilidade resultante não é exatamente válida. Os valores p exactos representam probabilidades de frequência exactas de certos acontecimentos, e os valores p médios não têm essa interpretação de frequência. Pode-se argumentar, no entanto, que esta desvantagem interpretacional é de pouca preocupação prática e que a utilização de valores p médios é uma abordagem de frequência quase exata. Para uma discussão de outros tratamentos de laços em testes de classificação, veja .