Valeurs p exactes pour la comparaison par paires des sommes de rang de Friedman, avec application à la comparaison des classificateurs
- Données de Friedman
- Hypothèse nulle
- Statistique de test de Friedman
- Tests de comparaison par paires et différence critique approximative
- Puissance statistique et tests alternatifs
- Distribution exacte et calcul rapide de la valeur p
- Implémentation logicielle
- Classements incomplets
- Valeurs p exactes et moyennes
- Classement à égalité
Données de Friedman
Pour effectuer le test de Friedman, les données observées sont disposées sous la forme d’une disposition bidirectionnelle complète, comme dans le tableau 1A, où les k lignes représentent les groupes (classificateurs) et les n colonnes représentent les blocs (ensembles de données).
Les données sont constituées de n blocs avec k observations dans chaque bloc. Les observations dans différents blocs sont supposées indépendantes. Cette hypothèse ne s’applique pas aux k observations dans un bloc. La procédure de test reste valide malgré les dépendances à l’intérieur du bloc. La statistique de test de Friedman est définie sur des données classées, donc à moins que les données brutes d’origine ne soient des scores de rang à valeur entière, les données brutes sont transformées en rang. Les entrées de rang dans le tableau 1B sont obtenues en ordonnant d’abord les données brutes {x ij; i = 1, …, n, j = 1, k, k} dans le tableau 1A en colonnes du moins au plus grand, dans chacun des n blocs séparément et indépendamment, puis en assignant les entiers 1,…, k comme scores de rang des k observations dans un bloc. La somme des lignes des rangs pour tout groupe j est la somme des rangs définie comme R j = ∑ n i = 1 r ij.
Hypothèse nulle
L’hypothèse nulle générale du test de Friedman est que tous les k échantillons bloqués, chacun de taille n, proviennent de distributions de population identiques mais non spécifiées. Pour préciser plus en détail cette hypothèse nulle, soit X ij une variable aléatoire de fonction de distribution cumulée inconnue F ij, et soit x ij la réalisation de X ij.
L’hypothèse nulle peut être définie de deux manières, selon que les blocs sont fixes ou aléatoires. Si les blocs sont fixes, toutes les valeurs de mesure k × n sont indépendantes. S’il y a k groupes assignés aléatoirement pour contenir k X ij non liés dans chaque bloc, comme dans un plan de bloc complet randomisé, alors l’hypothèse nulle selon laquelle les k groupes ont des distributions identiques peut être formulée comme
H 0: F i1(x) = … = F ik(x) = F i(x) pour chaque i = 1, …, n,
où F i(x) est la distribution des observations dans le i bloc. La même hypothèse, mais plus spécifique, est obtenue si l’on suppose que le modèle additif habituel a généré le x ij dans la disposition bidirectionnelle. Le modèle additif décompose l’effet total sur la valeur de mesure en un effet global μ, un effet de bloc i β i et un effet de groupe j τ j. Si la fonction de distribution est notée F ij(x) =F(x−μ−β i−τ j), l’hypothèse nulle de l’absence de différences entre les k groupes peut être énoncée comme
et l’hypothèse alternative générale comme
\({H}_1:\kern0.5em {\tau}_{j_1}\ne{\tau}_{j_2}\) pour au moins une paire (j 1, j 2).
Notez que cette représentation affirme également que les fonctions de distribution sous-jacentes F i1(x), …, F ik(x) dans le bloc i sont les mêmes, c’est-à-dire que F i1(x) = … = F ik(x) = F i(x), pour chaque fixe i = 1, …, n.
Si les blocs sont aléatoires, les mesures du même bloc aléatoire seront positivement corrélées. Par exemple, si un seul sujet forme un bloc et que k observations sont faites sur le sujet, éventuellement dans un ordre randomisé, les observations à l’intérieur du bloc sont dépendantes. Une telle dépendance se produit dans un plan de mesures répétées où n sujets sont observés et chaque sujet est testé dans des conditions k. On désigne la fonction de distribution conjointe des observations dans le bloc i par F i (x 1, …, x k). Ensuite, l’hypothèse nulle de l’absence de différences entre les groupes k est l’hypothèse de la possibilité de remplacer les variables aléatoires X i1, …, X ik , formulée comme
H 0 : F (x 1, …, x k ) = F i (x σ(1), …, x σ(k)) pour i = 1, …, n,
où σ(1), …, σ(k) désigne toute permutation de 1, …, k. Le modèle sous-jacent à cette hypothèse est que les variables aléatoires X ij ont une distribution échangeable. C’est un modèle approprié pour des mesures répétées, où il n’est pas approprié d’assumer l’indépendance au sein d’un bloc. On note également que cette formulation de l’hypothèse nulle et celle pour les blocs fixes sont cohérentes par rapport à la même alternative, à savoir la négation de H 0. Pour une discussion détaillée de cette question, voir.
Que les blocs soient fixes ou aléatoires, si l’hypothèse nulle est vraie, alors toutes les permutations de 1, …, k sont également probables. Il y a k! des moyens possibles d’attribuer k scores de rang aux k groupes de chaque bloc et toutes ces permutations intra-blocs sont équiprobables sous H 0. Comme le même argument de permutation s’applique à chacun des n blocs indépendants, il y a (k!) n configurations de rang tout aussi probables des scores de rang r ij dans la disposition bidirectionnelle. Chacune de ces permutations a une probabilité de (k!) – n d’être réalisé. Cette fonctionnalité est utilisée pour évaluer la distribution nulle des sommes de rang R j, en énumérant toutes les permutations de la disposition bidirectionnelle des rangs.
Statistique de test de Friedman
Dans l’hypothèse nulle de Friedman, la somme attendue des rangs pour chaque groupe est égale à n(k+1)/2. La statistique de test de Friedman
somme les écarts au carré des sommes de rang observées pour chaque groupe, R j, de la valeur attendue commune pour chaque groupe, n(k + 1)/2, en supposant que les k distributions de groupe sont identiques. Pour les petites valeurs de k et n, la distribution exacte de X 2 r a été présentée, par exemple, par Friedman. Un algorithme pour calculer la distribution conjointe exacte des sommes de rang de Friedman sous la valeur nulle est discuté dans. Pour le cas particulier de deux échantillons appariés, voir.
Calcul de la statistique de test en utilisant la distribution nulle du (k!) n permutations possibles prend du temps si k est grand. Cependant, Friedman a montré que lorsque n tend vers l’infini, X 2 r converge en distribution vers χ 2 df = k−1, une variable aléatoire du chi carré avec k-1 degrés de liberté. Ce résultat est utilisé dans le test asymptotique de Friedman. Le test de Friedman rejette H 0 à un niveau de signification α prédéfini lorsque la statistique de test X 2 r dépasse le 100 (1-α) perc centile de la distribution limite du chi carré de X 2 r avec k−1 degrés de liberté. La statistique de test doit être ajustée s’il y a des rangs à égalité dans les blocs. De plus, diverses modifications du test de Friedman ont été proposées, par example la distribution F comme alternative à la distribution du chi carré, ainsi que des généralisations, telles que la statistique de test de Skillings-Mack à utiliser en présence de données manquantes. Ces ajustements et divers autres ajustements et concurrents non paramétriques au test de Friedman (par exemple, Kruskal-Wallis, Quade, test des rangs alignés de Friedman) ne sont pas discutés ici (voir).
Tests de comparaison par paires et différence critique approximative
Fréquemment, les chercheurs ne s’intéressent pas seulement à tester l’hypothèse globale de l’égalité des groupes mais aussi, ou plus encore, à l’inférence sur l’égalité d’égalité des paires de groupes. De plus, même si l’on s’intéresse principalement à H 0 et que l’hypothèse est rejetée, une analyse de suivi peut être menée pour déterminer les raisons possibles du rejet. Une telle analyse peut révéler des différences de groupe, mais elle peut également révéler qu’aucune des paires n’est significativement différente, malgré un résultat de test globalement significatif.
Pour résoudre ces problèmes, il est opportun de tester des hypothèses d’égalité pour des paires de groupes en utilisant des tests de comparaison simultanés. Ces procédures de comparaison multiple peuvent impliquer, dans des comparaisons 1 × N (ou plusieurs), de tester k-1 hypothèses d’égalité de tous les groupes non−témoins par rapport au contrôle de l’étude ou, dans des comparaisons N × N (toutes paires), de considérer k (k-1)/ 2 hypothèses d’égalité entre toutes les paires de groupes. Pour les deux types de comparaisons, des tests approximatifs à grand échantillon ont été conçus. Ils sont dérivés pour la situation où n, le nombre de blocs (c’est-à-dire la « taille de l’échantillon »), est grand.
Le tableau 2 présente les tests approximatifs de différence critique (CD) pour les comparaisons 1 × N et N × N des sommes de rang de Friedman, comme recommandé dans les monographies et articles très cités et les manuels populaires sur les statistiques non paramétriques. La différence critique est la différence minimale requise dans les sommes de rang pour qu’une paire de groupes diffère au niveau alpha de signification pré-spécifié. Il est à noter que dans de nombreuses publications, la statistique CD est calculée en utilisant la différence des moyennes de somme de rang, c’est-à-dire R j / n, plutôt que des sommes de rang. Les résultats sont identiques, puisque chaque groupe a n observations, si les formules statistiques de test sont modifiées de manière appropriée.
Lorsque l’hypothèse nulle de l’équidistribution des rangs dans n classements indépendants est vraie et que la condition d’une grande taille d’échantillon est rencontré, les différences dans les sommes de rang sont à peu près normalement distribuées. Soit d = R i-R j, avec i ≠ j, la différence de somme de rang entre une paire de groupes i et j. Le support de la différence de somme de rang d est la fermeture. Dans l’hypothèse nulle, la valeur attendue E(d) = 0 et la variance Var(d) = nk(k+1)/6. Comme la distribution de d est symétrique autour de E(d) = 0, l’asymétrie est nulle, comme tous les moments d’ordre impair. Le coefficient de kurtose, dérivé par Whitfield sous la forme
est inférieur à 3 (c’est-à-dire un excès de kurtose négatif), ce qui implique que la distribution de différence de somme de rang discrète a des queues plus fines que la normale. Notez cependant que le kurtosis tend vers 3 avec l’augmentation de n, donc une approximation normale est raisonnable. Cela implique que d a une distribution asymptotique N(0, Var(d)) et que l’écart normal \(d/\sqrt{\mathrm{Var}(d)}\) est asymptotiquement N(0, 1).
Comme on peut le voir dans le tableau 2, le test approximatif normal est recommandé par divers auteurs lorsque tous les groupes doivent être comparés les uns aux autres par paires. Il est également discuté par Demšar comme une statistique de test à utiliser lorsque tous les groupes sont comparés à un seul contrôle. Notez que les procédures de test normales contrôlent le taux d’erreur de type I par famille en divisant le niveau global de signification α par le nombre de comparaisons effectuées (c.-à-d. c 1 dans 1 × N et c 2 dans N × N comparaisons). Il existe des concurrents plus puissants à cette correction de type Bonferroni, tels que les procédures Holm, Hochberg et Hommel. Ces méthodes de contrôle du taux d’erreur faussement positif global ne sont pas développées dans le présent article. Pour un tutoriel dans le domaine de la comparaison des classificateurs, voir Derrac et al. .
En plus de l’approximation normale ordinaire, des tests simultanés ont été proposés qui exploitent la structure de covariance de la distribution des valeurs des différences de sommes de rang. Alors que les n classements sont mutuellement indépendants sous H 0, les sommes de rang et les différences de somme de rang sont également dépendantes et corrélées. La corrélation entre les différences de somme de rang dépend des sommes de rang impliquées. Plus précisément, comme indiqué par Miller, lorsque l’hypothèse nulle est vraie
Par conséquent, la corrélation est nulle pour les paires de différences de somme de rang sans groupe en commun, et 0,5 pour les paires de différences avec un groupe en commun aux deux différences. Le nombre de paires corrélées diminue à mesure que k augmente. Pour une étude impliquant k groupes, la proportion de paires corrélées est égale à 4/ (k+1). Ainsi, lorsque k = 7, par exemple, 50% des couples sont corrélés, mais lorsque k = 79, seuls 5% sont corrélés.
Comme indiqué dans diverses études (par exemple,), pour des comparaisons 1 × N, cette structure de corrélation implique que, lorsque H 0 est vrai et que n tend vers l’infini, la distribution des différences entre les sommes de rang de groupe k−1 et la somme de rang de contrôle coïncide avec une distribution normale asymptotique (k−1)-variate avec des moyennes nulles. La valeur de différence critique peut donc être approximée par la statistique de test étiquetée CD M dans le tableau 2, où la constante \({m}_{\alpha, df = k-1, \rho = {\scriptscriptstyle\frac{1}{2}}} \) est le point ath percentile supérieur de la distribution de la valeur maximale de (k−1) N variables aléatoires (0,1) également corrélées avec une corrélation commune \(\rho={\scriptscriptstyle\frac{1}{2}}. \) La procédure a un taux d’erreur asymptotique par famille égal à α.
Pour les comparaisons N × N, cela signifie que la covariance des différences de somme de rang est égale à la covariance des différences entre k variables aléatoires indépendantes avec des moyennes nulles et des variances nk(k+1)/12. Ainsi, la distribution asymptotique de \(max\left\{\left|{R}_i-{R}_j\right/\right\}/\sqrt{nk\left(k + 1\right)/12}\) coïncide avec la distribution de la plage (Q k, ∞) de k variables aléatoires indépendantes N(0, 1). La statistique de test associée est CD Q, où la constante q α, df = k, ∞ est le point ath percentile supérieur de la distribution de la plage studentisée (q) avec (k, ∞) degrés de liberté. Encore une fois, comme le test considère la différence absolue de tous les k groupes simultanément, le taux d’erreur asymptotique par famille est égal à α.
Le test statistique de Friedman lui-même donne lieu au test simultané mentionné dans la rangée inférieure du tableau 2. L’hypothèse nulle est acceptée si la différence de sommes de rang ne dépasse pas la valeur critique \(C{D}_{\chi^2}. \) Cette approximation asymptotique du chi carré est recommandée dans certains manuels populaires, bien que Miller ait soutenu que l’énoncé de probabilité n’est pas le plus précis des tests.
Puissance statistique et tests alternatifs
Notez que les statistiques de test CD présentées dans le tableau 2 ne nécessitent pas d’informations sur les rangs à l’intérieur des blocs tels que déterminés dans l’expérience. Au contraire, les tests de rang simultanés supposent tous que, dans chaque bloc, chaque observation est également susceptible d’avoir un rang disponible. Lorsque cela est vrai, la quantité (k + 1) (k−1) / 12 est la variance des classements à l’intérieur des blocs et nk (k + 1) / 6 la variance de la différence entre deux sommes de rang quelconques. Par conséquent, la distribution nulle de d dans la population a une moyenne nulle et un écart type connu. C’est la raison précise pour laquelle les tests approximatifs normaux utilisent le score z comme statistique de test. Cependant, il est important de souligner dans ce contexte que la racine carrée de nk (k + 1) / 6 est l’écart type de d lorsque l’hypothèse nulle globale est vraie, mais pas lorsqu’elle est fausse. Il ne tient, comme les valeurs p, que dans un modèle particulier, c’est-à-dire H 0; un modèle qui peut être vrai ou non. Si l’hypothèse nulle est fausse, la quantité nk(k+1)/6 est typiquement une surestimation de la variance, ce qui fait perdre de la puissance aux tests simultanés, approximatifs et exacts.
Il existe des tests de comparaison par paires pour les sommes de rang de Friedman disponibles qui sont calculées sur les scores de rang observés plutôt que sur les sommes de rang. Ces tests, tels que le test de Rosenthal-Ferguson et le test populaire de Conover, utilisent le score t comme statistique de test. Les tests t par paires sont souvent plus puissants que les tests simultanés discutés ci-dessus, mais il y a aussi des inconvénients. En bref, le test de Rosenthal-Ferguson utilise les variances et la covariance observées des scores de rang de chaque paire individuelle de groupes, pour obtenir une erreur type de d pour le test de signification de la différence de somme de rang par paire. Cette erreur standard est valable que l’hypothèse nulle de pas de différence par paire soit vraie ou non. Cependant, à côté de la contrainte formelle du test selon laquelle n doit être supérieur à k + 1, la variance de d peut être mal estimée, car il y a généralement peu de degrés de liberté disponibles pour l’estimation de la (co-)variance dans les applications de test de Friedman à petit échantillon. De plus, les (co-)variances observées sont différentes pour chaque paire de groupes. Par conséquent, il ne découle pas de la signification d’une différence d’une somme de rang A donnée d’une autre somme de rang B, qu’une troisième somme de rang C, plus différente de A que B, serait également significativement différente. C’est une caractéristique désagréable du test.
Le test de Conover estime l’écart-type de d en calculant une erreur-type groupée à partir des (co-)variances des scores de rang observés de tous les groupes, augmentant ainsi la puissance statistique. La méthode est similaire au test de la différence la moins significative protégée (LSD) de Fisher, appliqué aux scores de classement. Dans cette méthodologie, aucun ajustement pour les tests multiples n’est apporté aux valeurs de p afin de préserver le taux d’erreur familial au niveau nominal de signification. Le test est plutôt protégé en ce sens qu’aucune comparaison par paires n’est effectuée à moins que la statistique globale du test ne soit significative. Comme dans la procédure du LSD protégé par Fisher, le test de Conover a la propriété d’incorporer la valeur F observée du test global dans le processus de décision inférentielle. Cependant, contrairement au LSD protégé par Fisher, qui utilise la valeur F observée uniquement de 0 à 1 (‘go / no go’), le test de Conover utilise la valeur F de manière fluide lors du calcul du LSD. Autrement dit, il a la caractéristique inhabituelle que plus la statistique de test globale est grande, plus le seuil de différence la moins significative est petit pour déclarer une différence de somme de rang significative. Le test de Duncan-Waller a cette même caractéristique, mais ce test préconise une approche bayésienne des comparaisons multiples avec le LSD de Bayes. Comme les tests de comparaison de la deuxième étape sont conditionnels au résultat de la première étape, le niveau alpha nominal utilisé dans le test de Conover par paire n’a pas de véritable signification probabiliste au sens fréquentiste. Comme l’ont noté Conover et Iman (: 2), « Étant donné que le niveau α du test de deuxième étape n’est généralement pas connu, il ne s’agit plus d’un test d’hypothèse au sens habituel, mais simplement d’un critère pratique pour séparer certains traitements des autres. »
Distribution exacte et calcul rapide de la valeur p
Nous présentons un test exact pour la comparaison simultanée par paires des sommes de rang de Friedman. La distribution nulle exacte est déterminée à l’aide de la méthode de la fonction génératrice de probabilité. Les fonctions de génération fournissent un moyen élégant d’obtenir des distributions de probabilité ou de fréquence de statistiques de test sans distribution. L’application de la méthode de la fonction génératrice donne lieu au théorème suivant, dont la preuve se trouve dans le fichier additionnel 1.
Théorème 1 Pour n classements à valeurs entières mutuellement indépendants, chacun avec des scores de rang également probables allant de 1 à k, la probabilité exacte d’obtenir une différence par paire d pour deux sommes de rang quelconques est égale à
où
est le nombre de de manières distinctes, une différence de somme de rang de d peut survenir, d ayant un support sur d =.
Le fichier additionnel 1 offre également une expression de forme fermée pour la valeur p exacte de d. La valeur p est définie comme la probabilité d’obtenir un résultat au moins aussi extrême que celui observé, étant donné que l’hypothèse nulle est vraie. Elle est obtenue comme la somme des probabilités de tous les d possibles, pour les mêmes k et n, qui sont aussi probables ou moins probables que la valeur observée de d sous la valeur nulle. La valeur p exacte est notée P (D ≥ d; k, n), et il est calculé en utilisant l’expression
Calculer la valeur p exacte avec cette expression de sommation triple permet d’accélérer les ordres de grandeur sur l’énumération complète de tous les résultats possibles et de leurs probabilités par une approche de permutation par force brute. Pour des valeurs plus grandes de n, cependant, le calcul exact prend un peu de temps et pour étendre la plage pratique pour effectuer des tests exacts, il est souhaitable de calculer la valeur p plus efficacement.
De plus, parce qu’en pratique les tests de comparaison multiples concernent les différences absolues, il est opportun de calculer la probabilité cumulative de la valeur absolue des différences dans les sommes de rang. Comme le nombre de points de masse de la distribution symétrique de d est un entier de la forme 2n (k−1) + 1, la distribution a un nombre impair de probabilités. Cela implique que, comme la fonction de masse de probabilité de d est symétrique autour de zéro, la masse de probabilité à gauche de d = 0 peut être repliée, ce qui entraîne une distribution repliée de d non négative. Par conséquent, la valeur p unilatérale de d non négative dans la plage d = 1, …, n (k-1) peut être obtenue comme la somme des deux valeurs p unilatérales de la distribution symétrique avec support d =. Comme le doublement de la valeur p unilatérale conduit à une valeur p pour d = 0 qui dépasse l’unité, la valeur p pour d = 0 (seulement) est calculée comme P (D ≥ 0; k, n) = P (D = 0) + P (D ≥ 1), et ceci est exactement égal à 1.
Pour accélérer le calcul, nous transformons la double sommation sur les indices i et j dans l’expression de P (D ≥ d; k, n) en une sommation sur un seul indice, par exemple, en utilisant le théorème 2. La preuve est donnée dans le dossier supplémentaire 2.
Théorème 2 Pour les entiers non négatifs d et k
Cette réduction à une fonction à somme unique implique que la valeur p peut alternativement être calculée à partir de l’expression beaucoup plus simple
et, comme nous le montrerons, même pour des valeurs plus grandes de n d’une manière rapide sur le plan informatique.
Implémentation logicielle
Bien que les deux expressions de la valeur p exacte soient mathématiquement correctes, un calcul simple peut produire des erreurs de calcul. Même pour des valeurs modérées de n (environ 20), le coefficient binomial qui a d dans les indices peut devenir extrêmement grand et le stockage de ces nombres pour une multiplication ultérieure crée un débordement numérique dû à la limitation de précision de l’arithmétique à précision fixe. Une façon de résoudre cet échec consiste à utiliser une relation de récurrence qui satisfait la fonction génératrice. Les récursions que nous avons examinées étaient toutes coûteuses en calcul, à l’exception de petites valeurs de n et / ou k. Un moyen plus rapide de calculer correctement la valeur p exacte consiste à utiliser un calcul arithmétique de précision arbitraire pour traiter des nombres qui peuvent être de grande taille arbitraire, limitée uniquement par la mémoire de l’ordinateur disponible.
Le calcul de la valeur p de la différence absolue de somme de rang d donnée par k et n est implémenté dans R. Le code R, qui nécessite l’installation du package Rmpfr pour l’arithmétique de haute précision, se trouve dans le fichier supplémentaire 3. Le script étiqueté pexactfrsd calcule la valeur p exacte P (D ≥|d|), et offre en outre la possibilité de calculer la probabilité P (D =|d|), et le nombre (cumulatif) de compositions de d (c’est-à-dire W(D =|d|) et W (D ≥|d|)). Le code R et les futures mises à jour potentielles sont également disponibles à http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.
Pour illustrer les dérivations, le fichier supplémentaire 4 offre un exemple numérique de petite taille (k = 3, n = 2), et le fichier supplémentaire 5 tabule le nombre de compositions de d pour des combinaisons de k = n = 2,…, 6, pour inclusion dans l’OEIS. Comme on peut le voir dans le fichier supplémentaire 5, pour de petites valeurs de n, la distribution symétrique dépliée de d est bimodale, avec des modes à +1 et -1. Cette caractéristique disparaît rapidement lorsque n augmente, en particulier pour k >2 à n ≥ 6.
Ci−après, sauf indication contraire, nous considérerons que la valeur de la différence de somme de rang d est soit nulle, soit positive, allant de 0 à n (k-1), et laisserons ainsi tomber le symbole de valeur absolue autour de d.
Classements incomplets
Les n classements {1,2,…,k} étant mutuellement indépendants, on peut les diviser en deux (ou plus) parties de taille égale ou inégale, étiquetées (D 1; k, n 1) et (D 2;k, n 2), avec ∑ 2 t = 1 D t = D, et D t désignant les différences de sommes de rang des deux parties. La valeur p exacte peut être obtenue en utilisant
où – comme l’indique la borne inférieure de la sommation – le calcul est effectué en utilisant l’expression de valeur p qui permet d négatif. Une propriété unique et utile de la méthode exacte, qui n’est pas partagée par les méthodes approximatives discutées, est qu’il est facile de calculer des probabilités de valeur p pour des conceptions avec des tailles de blocs k inégales; par exemple, des conceptions dans lesquelles n 1 a des rangs {1, 2, k, k 1}, et n 2 rangs {1, 2, …, k 2}, avec k 1 ≠ k 2. Une expression générale pour calculer la valeur p exacte dans des conceptions incomplètes avec j parties de taille inégale est
où jj t = 1 D t =D, et un exemple dans lequel n est subdivisé en trois parties, chacune avec une valeur unique de k (k 1, k 2, k 3), est
Bien que les fonctions de somme ralentissent le calcul, cette caractéristique unique du calcul exact de la valeur p permet d’effectuer des tests de signification simultanés valides chaque fois que certains rangs à l’intérieur du bloc sont manquants par conception. De tels tests seraient difficiles à réaliser en utilisant l’une des méthodes d’approximation à grand échantillon. Un exemple empirique sera donné dans la section Application.
Valeurs p exactes et moyennes
Comme les différences par paires avec support sur d= sont réparties symétriquement autour de zéro sous H 0, doubler la valeur p unilatérale est le choix le plus naturel et le plus populaire pour un test exact ordinaire. Un test utilisant la valeur p exacte garantit que la probabilité de commettre une erreur de type I ne dépasse pas le niveau nominal de signification. Cependant, comme le taux d’erreur de type I est toujours inférieur au niveau nominal, un test de signification avec une valeur p exacte est une approche prudente du test, en particulier si le test implique une distribution très discrète. La valeur p moyenne, communément définie comme la moitié de la probabilité d’une statistique observée plus la probabilité de valeurs plus extrêmes, c’est-à-dire,
améliore ce problème. La valeur p moyenne est toujours plus proche du niveau nominal que la valeur p exacte, au détriment de la taille nominale parfois supérieure.
Classement à égalité
La valeur p moyenne peut également être utilisée pour gérer les classements à égalité. Lorsque des liens se produisent dans les blocs, le midrank (c’est-à-dire la moyenne des rangs) est généralement attribué à chaque valeur liée. Si, à la suite de rangs liés, la différence de somme des rangs observée est une valeur entière d plus 0,5, la valeur p peut être obtenue comme la moyenne des valeurs p exactes des entiers adjacents d et d + 1, c’est-à-dire \({\scriptscriptstyle\frac{1}{2}} \left, \) et cela équivaut à la valeur p moyenne. Il est à noter que la probabilité résultante n’est pas exactement valide. Les valeurs p exactes représentent les probabilités de fréquence exactes de certains événements, et les valeurs p moyennes n’ont pas une telle interprétation de fréquence. On peut cependant faire valoir que cet inconvénient interprétatif est peu préoccupant sur le plan pratique et que l’utilisation de valeurs moyennes de p est une approche presque exacte de la fréquence. Pour une discussion sur les autres traitements des liens dans les tests de rang, voir.