Přesné p-hodnoty párového srovnání Friedman rank částky, s aplikace pro porovnávání klasifikátorů
Friedman údaje
provést Friedman test pozorované údaje jsou uspořádány ve formě kompletní dvou-způsob rozložení, jako v Tabulce 1A, kde k řádky představují skupiny (klasifikátory) a n sloupců představují bloky (soubory dat).
data se skládají z n bloků s k pozorování v rámci každého bloku. Pozorování v různých blocích se považují za nezávislá. Tento předpoklad se nevztahuje na pozorování k v bloku. Testovací postup zůstává platný i přes závislosti v rámci bloku. Statistika Friedmanova testu je definována na hodnocených datech, takže pokud původní nezpracovaná data nejsou celočíselná hodnocení, nezpracovaná data jsou transformována. Pořadí záznamů v Tabulce 1B jsou získány první objednávce raw data {x ij ; i = 1, …, n, j = 1, …, k} v Tabulce 1A sloupec-wise od nejmenšího po největší, v každém z n bloky odděleně a nezávisle na sobě, a pak přiřadit čísla 1,…,k, jak je hodnost skóre k vyjádření v rámci bloku. Součet řádků řad pro jakoukoli skupinu j je součet hodností definovaný jako R j = ∑ n i = 1 r ij .
nulová hypotéza
obecná nulová hypotéza Friedmanova testu je, že všechny vzorky blokované k, každý z velikosti n, pocházejí ze stejných, ale nespecifikovaných populačních distribucí. Určit tuto nulovou hypotézu podrobněji, nechť X ij značí náhodnou proměnnou s neznámou distribuční funkcí F ij , a nechť x ij značí realizace X ij .
nulovou hypotézu lze definovat dvěma způsoby, v závislosti na tom, zda jsou bloky pevné nebo náhodné . Pokud jsou bloky pevné, jsou všechny naměřené hodnoty k × n nezávislé. Pokud jsou k skupin náhodně přiřazena držet k nesouvisející X ij v každém bloku, jako v randomizované kompletní design blok, pak nulovou hypotézu, že k skupiny mají identické rozdělení může být formulována jako
H 0 : F i1(x) = … = F, ik (x) = F i (x) pro každé i = 1, …, n,
kde F i (x) je rozdělení pozorování v i-tý blok . Stejná hypotéza, ale konkrétnější, se získá, pokud se předpokládá, že obvyklý aditivní model vygeneroval x ij v obousměrném uspořádání . Aditivní model rozkládá celkový účinek na naměřenou hodnotu na celkový efekt μ, blokový efekt β i a efekt skupiny J τ j. Pokud distribuční funkce je označen F ij (x) = F(x − μ − β i − τ j ), nulová hypotéza o žádné rozdíly mezi k skupin může být uvedeno jako
a obecný alternativní hypotézu
\( {H}_1:\kern0.5em {\tau}_{j_1}\ne {\tau}_{j_2} \) pro alespoň jednu (j 1, j 2) pár.
Všimněte si, že toto zastoupení také tvrdí, že základní distribuční funkce F i1(x), …, F ik (x) v bloku já jsou stejné, tj., že F i1(x) = … = F, ik (x) = F i (x), pro každé pevné i = 1, …, n.
Pokud se bloky jsou náhodné, měření ze stejné náhodný blok bude pozitivně koreluje. Například, pokud jeden subjekt tvoří blok a k pozorování se provádí na toto téma, případně v randomizovaném pořadí, pozorování uvnitř bloku jsou závislá. K takové závislosti dochází v návrhu opakovaných opatření, kde jsou pozorovány n subjekty a každý subjekt je testován za podmínek k. Označte společnou distribuční funkci pozorování v bloku i F i (x 1,…, x k ). Pak nulovou hypotézu o žádné rozdíly mezi k skupin je hypotéza o vzájemné zaměnitelnosti náhodné proměnné X i1, …, X ik , formulované jako
H 0 : F i (x 1, …, x k ) = F i (x, σ(1), …, x σ(k)) pro i = 1, …, n,
kde σ(1), …, σ(k) značí libovolné permutace 1, …, k. Model, který je základem této hypotézy, je, že náhodné proměnné X ij mají vyměnitelné rozdělení. Jedná se o vhodný model pro opakovaná opatření, kde není vhodné předpokládat nezávislost v rámci bloku . Také si všimneme, že tato formulace nulové hypotézy a hypotézy pro pevné bloky jsou konzistentní proti stejné alternativě, jmenovitě negaci H 0. Pro podrobnou diskusi o této záležitosti, viz .
zda jsou bloky pevné nebo náhodné, pokud je nulová hypotéza pravdivá, pak jsou všechny permutace 1, …, k stejně pravděpodobné. Existují k ! možné způsoby přiřazení skóre k rank skupinám k v každém bloku a všechny tyto permutace uvnitř bloku jsou equiprobable pod H 0. Protože stejný argument permutace platí pro každý z n nezávislých bloků, existují (k !) N stejně pravděpodobné pořadí konfigurace hodnosti skóre r ij v obousměrné rozložení . Každá z těchto permutací má Pravděpodobnost (k !)- n realizace. Tato funkce se používá k vyhodnocení nulového rozdělení hodnotových součtů R j, výčtem všech permutací obousměrného rozvržení hodností.
Statistika Friedmanova testu
podle Friedmanovy nulové hypotézy se očekávaný řádkový součet hodností pro každou skupinu rovná n (k + 1) / 2. Na Friedman test statistika
sumy čtverců odchylek pozorovaných hodnost částky pro každou skupinu, R, j , z běžné očekávané hodnoty pro každou skupinu, n(k + 1)/2, za předpokladu, že k group rozdělení jsou totožné. Pro malé hodnoty k A n bylo přesné rozdělení X 2 r předloženo například Friedmanem . Algoritmus pro výpočet přesné společné distribuce Friedman rank částek pod null je diskutován v . Zvláštní případ dvou spárovaných vzorků, viz .
výpočet statistiky testu pomocí nulového rozdělení (k !) n možné permutace je časově náročné, pokud k je velký. Nicméně, Friedman ukázal, že jak n inklinuje k nekonečnu, X 2 r konverguje v distribuci na χ 2 df = k-1, chi-kvadrát náhodná proměnná s K-1 stupni volnosti. Tento výsledek se používá v asymptotickém Friedmanově testu. Na Friedman test odmítne H 0 na předem zvolená hladina významnosti α, když testová statistika X 2 r přesahuje 100(1 − α)percentil z limitujících chi-squared distribuce X 2 r s k − 1 stupni volnosti . Statistiku testu je třeba upravit, pokud jsou v blocích svázané pozice . Také, různé modifikace Friedman test byly navrženy, například F rozdělení jako alternativa k chi-squared distribuce , stejně jako zobecnění, jako například Skillings-Mack testovací statistika pro použití v přítomnosti chybějící údaje. Tyto a různé další úpravy a neparametrické konkurenty na Friedmanův test (např., Kruskal-Wallis, Quade, Friedman vyrovnaných řadách test) zde nejsou diskutovány (viz ).
Párového srovnání testů a přibližný kritický rozdíl
Často, vědci nejsou jen zájem o testování globální hypotéza o rovnosti skupin, ale také, nebo dokonce více tak, v závěru na rovnost rovnost dvojici skupin. Dále, i když se člověk zajímá hlavně o H 0 a hypotéza je odmítnuta, může být provedena následná analýza k určení možných důvodů odmítnutí. Taková analýza může odhalit rozdíly ve skupinách, ale může také odhalit, že žádný z párů se významně neliší, navzdory globálně významnému výsledku testu.
k řešení těchto problémů je vhodné testovat hypotézy rovnosti pro páry skupin pomocí simultánních srovnávacích testů. Tyto vícenásobné porovnání postupy mohou zahrnovat, v 1 × N (nebo n) porovnání, testování k − 1 hypotéz o rovnosti všech non-kontrolní skupiny proti obor řízení nebo, v N × N (all-pair) srovnání, vzhledem k(k − 1)/2 hypotézy o rovnosti mezi všemi dvojicemi skupin. Pro oba typy srovnání byly navrženy přibližné testy s velkým vzorkem. Jsou odvozeny pro situaci, kdy n, počet bloků (tj. „velikost vzorku“), je velký.
Tabulka 2 zobrazuje kritický rozdíl (CD) orientační testy pro 1 × N a N × N srovnání Friedman rank částky, jak je doporučeno ve vysoce citovaných monografií a dokumentů a populární učebnice na neparametrické statistiky. Zásadní rozdíl je minimální požadovaný rozdíl v pořadí součtů pro dvojice skupin se liší v předem stanovené alfa hladina významnosti. Je třeba poznamenat, že v mnoha publikacích je statistika CD vypočtena pomocí rozdílu v průměrech rank sum, tj. Výsledky jsou identické, protože každá skupina má n pozorování, pokud jsou statistické vzorce testu vhodně upraveny.
Při nulové hypotézy equidistribution z řad v n nezávislých žebříčku je pravda, a stav velká velikost vzorku je splněna, rozdíly v hodnosti částky jsou přibližně normálně rozděleny . Nechť d = R i-R j, S i ≠ j, je rozdíl součtu hodnosti mezi dvojicí skupin i a j. podpora rozdílu součtu hodnosti d je uzavření . Podle nulové hypotézy je očekávaná hodnota E (d) = 0 a rozptyl Var (d) = nk (k + 1) / 6 . Vzhledem k tomu, že rozdělení d je symetrické kolem E (d) = 0, je šikmost nulová, stejně jako všechny liché řádové momenty. V špičatost koeficient, odvozený od Whitfield jako
je menší než 3 (tzn., negativní přebytek špičatost), z čehož vyplývá, že diskrétní rank sum rozdíl distribuce má tenčí ocasy, než je normální. Všimněte si však, že kurtóza má tendenci k 3 se zvyšujícím se n, takže normální aproximace je rozumná. To znamená, že d má asymptoticky N(0, Var(d)) distribuční a že normální odchýlit \( d/\sqrt{\mathrm{Var}(d)} \) je asymptoticky N(0, 1).
jak je vidět v tabulce 2, normální přibližný test doporučují různí autoři, pokud mají být všechny skupiny porovnány proti sobě. Demšar je také diskutován jako testovací statistika, která má být použita, když jsou všechny skupiny porovnány s jednou kontrolou. Všimněte si, že normální zkušební postupy ovládání familywise Typu I míra chyb vydělením celkovou hladinu významnosti α podle počtu srovnání provádí (tj. c 1 v 1 × N a c 2 v N × N porovnání). K dispozici jsou silnější konkurenti této korekce typu Bonferroni, jako jsou postupy Holm, Hochberg a Hommel. Tyto metody řízení celkové falešně pozitivní chybovosti nejsou v tomto článku rozpracovány. Pro výukový program v oblasti srovnávání klasifikátorů, viz Derrac et al. .
kromě běžných normální aproximace, simultánní testy byly navrženy, které využívají kovarianční strukturu rozložení hodnot rozdílů v hodnosti částky. Zatímco N žebříčky jsou vzájemně nezávislé pod H 0, hodnostní součty a rozdíly hodnotových součtů jsou také závislé a korelované. Korelace mezi rozdíly v hodnostních součtech závisí na příslušných částkách hodnosti. Konkrétně, jak uvádí Miller , když nulová hypotéza platí,
Proto korelace je nulová pro dvojici rank sum rozdíly u žádné skupiny společné, a 0,5 pro dvojici rozdíly, s jednou skupinou ve společné oběma rozdíly. Počet korelovaných párů klesá se zvyšováním k. Pro studii zahrnující skupiny k se podíl korelovaných párů rovná 4 / (k + 1). Proto, když k = 7, například, 50% párů je korelováno, ale když k = 79 je korelováno pouze 5%.
Jak je uvedeno v různých studiích (např., ), pro 1 × N srovnání tato korelace struktura znamená, že, když H 0 platí a n tendenci k nekonečnu, rozdělení, rozdíly mezi k − 1. skupina pořadí sumy a kontrolu rank sum shoduje s asymptotické (k − 1) -veličina normální rozdělení s nulovou prostředky. Kritická rozdíl hodnota proto může být aproximována pomocí testovací statistika označené CD M v Tabulce 2, kde konstanta \( {m}_{\alpha, df= k-1,\rho ={\scriptscriptstyle \frac{1}{2}}} \) je horní ath percentil bod pro rozdělení maximální hodnoty (k − 1) stejně koreluje N(0,1) náhodných veličin se společnou korelace \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) Postup má asymptotickou familiární chybovost rovnající se α .
Pro N × N srovnání, to znamená, že kovariance rank sum rozdíly rovná kovariance rozdíly mezi k nezávislých náhodných veličin s nulovou prostředky a rozptyly nk(k + 1)/12. To znamená, že asymptotické rozdělení \( max\left\{\left|{R}já-{R}_j\right|\right\}/\sqrt{nk\left( k+1\right)/12} \), se shoduje s rozdělením rozsahu (Q k,∞) k nezávislých N(0, 1) náhodných veličin. Přidruženou statistikou testu je CD Q, kde konstanta Q α, df = k,∞ je horní bod percentilu studovaného rozsahu (Q) distribuce s (k, ∞) stupni volnosti . Opět platí, že vzhledem k tomu, že test zvažuje absolutní rozdíl všech skupin k současně, asymptotická familiární chybovost se rovná α .
samotný Friedmanův statistický test vede k simultánnímu testu uvedenému ve spodním řádku tabulky 2. Nulová hypotéza je přijata, pokud rozdíl v hodnotových součtech nepřekročí kritickou hodnotu \ (C{D}_{\chi^2}. \ ) Tato asymptotická chi-kvadrátová aproximace se doporučuje v některých populárních učebnicích, ačkoli Miller tvrdil, že tvrzení o pravděpodobnosti není nejostřejší z testů.
Statistické síly a alternativní testy
Všimněte si, že CD testovací statistiky jsou uvedeny v Tabulce 2 nevyžadují informace o v-blok se řadí, jak je stanoveno v experimentu. Spíše, všechny současné hodnostní testy předpokládají, že v každém bloku je každé pozorování stejně pravděpodobné, že bude mít jakoukoli dostupnou hodnost. Pokud je to pravda, množství (k + 1)(k − 1)/12, je rozptyl v rámci bloku žebříčku a nk(k + 1)/6 rozptylu rozdíl mezi dvěma hodnost částky . Proto má nulové rozdělení d v populaci nulový průměr a známou směrodatnou odchylku. To je přesný důvod, proč normální přibližné testy používají z-skóre jako statistiku testu. V této souvislosti je však důležité zdůraznit, že druhá odmocnina nk (k + 1) / 6 je směrodatná odchylka d, když je celková nulová hypotéza pravdivá, ale ne když je nepravdivá. Drží, podobně jako p-hodnoty, pouze v konkrétním modelu, tj. H 0; model, který může nebo nemusí být pravdivý. Pokud je nulová hypotéza nepravdivá, množství nk (k + 1) / 6 je obvykle nadměrným odhadem rozptylu, což způsobí, že současné testy, přibližné a přesné, ztratí sílu.
k dispozici jsou párové srovnávací testy pro Friedmanovy hodnostní součty, které se počítají spíše na pozorované hodnotové skóre než na hodnotové součty. Tyto testy , jako je Rosenthal-Fergusonův test a populární Conoverův test, používají jako statistiku testu t-skóre. Párové t-testy jsou často silnější než současné testy diskutované výše, existují však i nevýhody. Stručně řečeno, Rosenthal-Ferguson test používá pozorované odchylky a kovariance hodnosti skóre každé jednotlivé dvojice skupin, chcete-li získat standardní chyba d pro test významnosti párového rank sum rozdíl. Tato standardní chyba je platná, zda je nulová hypotéza žádného párového rozdílu pravdivá nebo ne. Nicméně vedle formální omezení testu, že n by mělo být větší než k + 1, rozptyl d může být špatně odhaduje, jak tam jsou obvykle několik stupňů volnosti k dispozici pro (spolu)odhad rozptylu v malém vzorku Friedman test aplikací. Kromě toho jsou pozorované (ko-)odchylky odlišné pro každou dvojici skupin. Z toho vyplývá, nevyplývá z významu rozdíl daném pořadí součet z další rank sum B, že třetí rank sum C, více různých od A, B je, že by také být výrazně odlišné. To je nepříjemná vlastnost testu.
Conoverův test odhaduje směrodatnou odchylku d výpočtem sdružené standardní chyby z (co-)odchylek pozorovaných rank skóre všech skupin, čímž se zvyšuje statistická síla. Metoda je podobná Fisherově testu chráněného nejméně významného rozdílu (LSD), aplikovanému na skóre hodnocení. V této metodice se neupravují hodnoty p pro vícenásobné testování, aby se zachovala chybovost familywise na nominální úrovni významnosti. Test je spíše chráněn v tom smyslu, že se neprovádí žádná párová srovnání, pokud celková statistika testu není významná. Stejně jako v Fisher chráněné LSD postup, Conover test má tu vlastnost, zahrnující pozorované F-hodnota celkového testu do inferenční proces rozhodování. Nicméně, na rozdíl od Fisher chráněné LSD, který používá pozorovaná hodnota F pouze v 0-1 (go/no go‘) způsobem, Conover test používá F-hodnota v hladké způsobem, kdy výpočetní LSD. To znamená, že má zvláštní vlastnost, že čím větší je celkový test, statistika, menší, nejmenší významný rozdíl prahová hodnota pro vyhlášení pořadí součet, rozdíl nebude významný. Duncan-Wallerův test má stejnou charakteristiku, ale tento test obhajuje bayesovský přístup k vícenásobnému srovnání s Bayesovým LSD. Jako porovnávací zkoušky ve druhé etapě jsou podmíněny výsledkem první fáze, nominální hladina alfa používá v párové Conover test nemá žádné skutečné pravděpodobnostní význam v frequentist smysl. Jak poznamenal Conover a Iman (: 2), “ protože úroveň α druhého stupně testu obvykle není známa, nejedná se již o test hypotézy v obvyklém smyslu, ale spíše o vhodné měřítko pro oddělení některých ošetření od ostatních.“
přesné rozdělení a rychlý výpočet hodnoty p
předkládáme přesný test pro současné párové srovnání Friedmanových rank částek. Přesné rozdělení null je určeno metodou generování pravděpodobnosti. Generující funkce poskytují elegantní způsob, jak získat pravděpodobnostní nebo frekvenční rozdělení statistik testů bez distribuce . Aplikace metody generující funkce vede k následující větě, jejíž důkaz je v dalším souboru 1.
Věta 1 Pro n vzájemně nezávislých číslo-oceňují žebříčky, každý s stejně pravděpodobné hodnost skóre v rozmezí od 1 do k, přesnou pravděpodobnost pro získání párového rozdíl d pro libovolné dva hodnost částky se rovná
, kde
je počet odlišné způsoby, jak může vzniknout rozdíl součtu D, přičemž d má podporu na d = .
Další soubor 1 také nabízí uzavřené formě výrazu pro přesnou p-hodnotu d. P-hodnota je definována jako pravděpodobnost získání výsledku alespoň tak extrémní, jako ten pozorováno, vzhledem k tomu, že nulová hypotéza je pravda. To se získá jako součet pravděpodobností všech možných d, pro stejné k a n, které jsou stejně pravděpodobné či méně pravděpodobné, než pozorované hodnoty d podle null. Přesná hodnota p je označena P (D ≥ d; k, n) a vypočítá se pomocí výrazu
Výpočet přesné p-hodnoty s tento třílůžkový sumační vyjádření poskytuje rychlosti až řádově po kompletní výčet všech možných výsledků a jejich pravděpodobností o brute-force permutace přístup. Pro větší hodnoty n je však přesný výpočet poněkud časově náročný a pro rozšíření praktického rozsahu pro provádění přesných testů je žádoucí vypočítat hodnotu p efektivněji.
také proto, že v praxi se více srovnávacích testů týká absolutních rozdílů, je účelné vypočítat kumulativní pravděpodobnost absolutní hodnoty rozdílů v hodnotových součtech. Protože počet hmotnostních bodů symetrického rozdělení d je celé číslo tvaru 2n (k − 1) + 1, rozdělení má lichý počet pravděpodobností. To znamená, že vzhledem k tomu, že funkce pravděpodobnostní hmotnosti D je symetrická kolem nuly, může být hmotnost pravděpodobnosti vlevo od D = 0 přehnuta, což má za následek složené rozdělení nezáporné d. V důsledku toho lze jednostrannou p-hodnotu nezáporného d v rozsahu d = 1, …, n(k − 1) Získat jako součet dvou jednostranných P-hodnot symetrického rozdělení s podporou d = . Jako zdvojnásobení jednostranná p-hodnota vede k p-hodnota pro d = 0, která přesahuje jednoty, p-hodnota pro d = 0 (jen) se vypočítá jako P(D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1), a to je přesně rovno 1.
pro urychlení výpočtu transformujeme dvojité sčítání nad indexy i a j ve výrazu pro P (D ≥ D; k, n) na součet nad jedním indexem, řekněme, pomocí věty 2. Důkaz je uveden v dodatečném spisu 2.
Věta 2 Pro nezáporné celá čísla d a k
Tato redukce na singly-součet funkce vyplývá, že p-hodnota může být alternativně počítá z mnohem jednodušší výraz,
a jak si ukážeme, i pro větší hodnoty n výpočetně rychlým způsobem.
implementace softwaru
ačkoli jsou dva výrazy pro přesnou hodnotu p matematicky správné, přímočarý výpočet může způsobit chyby výpočtu. I pro střední hodnoty n (20), binomický koeficient, který má d indexů se může stát velmi velké a ukládání těchto čísel pro následné množení vytváří numerické přetečení z důvodu přesnosti, omezení pevné-přesnost aritmetiky. Jedním ze způsobů řešení tohoto selhání je použití relace opakování, která splňuje funkci generování . Na recursions jsme zkoumali, byly všechny výpočetně nákladné, nicméně, s výjimkou pro malé hodnoty n a/nebo k. Rychlejší způsob, jak vypočítat přesnou p-hodnotu správně je použít libovolný-přesné aritmetické výpočty se vypořádat s čísly, které mohou být svévolné velké velikosti, omezen pouze dostupné paměti počítače.
výpočet hodnoty p absolutního rozdílu součtu d daného K A n je implementován v r. R kód, který vyžaduje balíček Rmpfr pro vysoce přesné aritmetiky, které mají být instalovány, je v dalším souboru 3. Scénář označen pexactfrsd vypočítá přesnou p-hodnotu P(D ≥ |d|), a navíc poskytuje možnost vypočítat pravděpodobnost P(D = |d|) a (kumulativní) počet skladeb d (tj. W(D = |d|) a W(D ≥ |d|)). R kód a potenciální budoucí aktualizace jsou také k dispozici na http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.
Pro ilustraci derivace, Další soubor 4 nabízí malé početní příklad (k = 3, n = 2), a Další soubor 5 obsahuje číslo skladby d pro kombinace k = n = 2,…,6, pro sociální začleňování v OEIS . Jak je vidět v dalším souboru 5, pro malé hodnoty n je rozložené symetrické rozdělení d bimodální, s režimy na + 1 a-1 . Tato funkce rychle zmizí, když se n zvyšuje, konkrétně pro k > 2 Při n ≥ 6.
Dále, není-li uvedeno jinak, budeme uvažovat hodnotu rank sum rozdíl d buď nulový nebo pozitivní, v rozmezí od 0 do n(k − 1), a tedy pokles absolutní hodnoty symbol kolem d.
Nekompletní žebříčku
Protože n žebříčku {1,2,…,k} jsou vzájemně nezávislé, můžeme je rozdělit do dvou (nebo více), stejné nebo nestejné velikosti části, označené (D 1, k, n, 1) a (D 2, k, n 2), s ∑ 2 t = 1 D t = D, a D t označující rozdíly v hodnosti sumy na dvě části. Přesná p-hodnota může být získána pomocí
, kde – jak ukazuje shrnutí je dolní mez – výpočet se provádí pomocí p-hodnota výrazu, který umožňuje negativní d. Unikátní a užitečná vlastnost přesnou metodu, která není sdílena přibližné metody diskutovali, je to, že je snadné vypočítat p-hodnotu pravděpodobnosti pro vzory s nestejnou velikostí bloku k; např. návrhy, v nichž n 1 se řadí {1, 2, …, k-1} a n 2 řady {1, 2, …, k 2}, k 1 ≠ k 2. Obecný výraz pro výpočet přesné p-hodnoty v neúplné návrhy s j nestejně velké části.
kde ∑ j t = 1 D t = D, a příklad, ve kterém n je rozdělen do tří částí, každý s unikátní hodnota k (k 1, k 2, k 3), je
ačkoli funkce sum zpomalují výpočet, tato jedinečná vlastnost přesného výpočtu hodnoty p umožňuje provádět platné simultánní testy významnosti, kdykoli některé řady uvnitř bloku chybí. Takové testy by bylo obtížné provést pomocí jedné z metod aproximace velkých vzorků. Empirický příklad bude uveden v sekci Aplikace.
Přesné a střední p-hodnoty
Jako párové rozdíly s podporou na d = jsou symetricky rozděleny kolem nuly, pod H 0, zdvojnásobení jednostranná p-hodnota je nejpřirozenější a populární volbou pro běžné exaktní test. Test s použitím přesné hodnoty p zaručuje, že pravděpodobnost spáchání chyby typu I nepřekročí nominální úroveň významnosti. Nicméně, jak Typu I míra chyb je vždy pod nominální úroveň, význam, test přesná p-hodnota je konzervativní přístup k testování, a to zejména pokud test zahrnuje vysoce diskrétní rozdělení . Střední p-hodnota, běžně definována jako polovina pravděpodobnost, že pozorovaná statistika a pravděpodobnost, že nepadnou více extrémní hodnoty, tj.,
zmírňuje tento problém. Střední hodnota p je vždy blíže Jmenovité úrovni než přesná hodnota p, na úkor občasného překročení jmenovité velikosti.
svázané žebříčky
střední hodnota p může být také použita pro zpracování svázaných žebříčků. Když dojde k vazbám v blocích, midrank (tj. průměr řad) je běžně přiřazen ke každé vázané hodnotě. Pokud v důsledku vyrovnaných řadách, pozorované rank sum rozdíl je celočíselná hodnota d plus 0,5, p-hodnota může být získána jako průměrná přesné p-hodnoty přilehlých celá čísla d a d + 1, tj. \( {\scriptscriptstyle \frac{1}{2}}\left, \) a to je ekvivalentní polovině p-hodnota. Je třeba poznamenat, že výsledná pravděpodobnost není přesně platná. Přesné hodnoty p představují přesné pravděpodobnosti frekvence určitých událostí a střední hodnoty p nemají takovou interpretaci frekvence. Lze však tvrdit, že tato interpretační nevýhoda je málo praktická a že použití středních hodnot p je téměř přesným frekvenčním přístupem. Pro diskusi o dalších ošetřeních vazeb v hodnostních testech, viz .