Articles

exakta p-värden för parvis jämförelse av Friedman rank summor, med tillämpning för att jämföra klassificerare

Friedman data

för att utföra Friedman-testet är de observerade data ordnade i form av en komplett tvåvägslayout, som i tabell 1a, där k-raderna representerar grupperna (klassificerare) och n-kolumnerna representerar blocken (dataset).

Tabell 1 tvåvägslayout för Friedman-test

data består av n-block med K-observationer inom varje block. Observationer i olika block antas vara oberoende. Detta antagande gäller inte k-observationerna inom ett block. Testförfarandet förblir giltigt trots beroenden inom block . Friedman – teststatistiken definieras på rankade data så om inte de ursprungliga rådata är heltalsvärderade rankpoäng, rådata är ranktransformerade. Rangposterna i tabell 1b erhålls genom att först beställa rådata {x ij ; i = 1, …, n, j = 1, …, k} i tabell 1a kolumnvis från minst till störst, inom vart och ett av n-blocken separat och oberoende, och sedan tilldela heltalen 1,…,k som rangpoängen för k-observationerna inom ett block. Radsumman för rankningarna för någon grupp j är rangsumman definierad som R j = POV n i = 1 r ij .

nollhypotes

den allmänna nollhypotesen för Friedman-testet är att alla k-blockerade prover, var och en av storlek n, kommer från identiska men ospecificerade befolkningsfördelningar. För att specificera denna nollhypotes mer detaljerat, låt X ij beteckna en slumpmässig variabel med okänd kumulativ fördelningsfunktion F Ij och låt x ij beteckna förverkligandet av X ij .

nollhypotesen kan definieras på två sätt, beroende på om block är fasta eller slumpmässiga . Om blocken är fixerade, är alla mätvärden k IC. n oberoende. Om det finns k-grupper slumpmässigt tilldelade för att hålla k orelaterad X ij inom varje block, som i en randomiserad komplett blockdesign, kan nollhypotesen att k-grupperna har identiska fördelningar formuleras som

h 0 : F i1(x) = … = F ik (x) = F i (x) för varje i = 1, …, n,

där F i (x) är fördelningen av observationerna i ith-blocket . Samma hypotes, men mer specifik, erhålls om den vanliga tillsatsmodellen antas ha genererat x ij i tvåvägslayouten . Tillsatsmodellen sönderdelar den totala effekten på mätvärdet i en total effekt, enligt block i-effekt , enligt block i-effekt, enligt block i-effekt, samt Grupp j-effekt, enligt grupp J. Om fördelningsfunktionen betecknas F ij (x) = F(X − megapixlar − megapixlar i − megapixlar j) kan nollhypotesen om inga skillnader mellan k-grupperna anges som

$$ {H}_0:\kern0.5EM {\tau}_1=\dots ={\tau}_k, $$

och den allmänna alternativhypotesen som

\( {h}_1:\kern0.5EM {\tau}_{j_1}\ne {\tau}_{j_2} \) för minst ett (j 1, J 2) par.

Observera att denna representation också hävdar att de underliggande fördelningsfunktionerna F I1 (x), …, F ik(x) inom block i är desamma, dvs att F I1 (x) = … = F ik (x) = F i (x), för varje fast i = 1,…, n.

om block är slumpmässiga kommer mätningar från samma slumpmässiga block att vara positivt korrelerade. Till exempel, om ett enda ämne bildar ett block och k-observationer görs om ämnet, eventuellt i randomiserad ordning, är observationerna inom blocket beroende. Sådant beroende uppstår i en upprepad måttdesign där n-ämnen observeras och varje ämne testas under k-förhållanden. Beteckna den gemensamma fördelningsfunktionen för observationer inom block i med F i (x 1, …, x k ). Då är nollhypotesen om inga skillnader mellan k-grupperna hypotesen om utbytbarhet av de slumpmässiga variablerna X I1,…, X ik, formulerad som

h 0: Fi (x 1,…, x k ) = Fi (x 0),…, x 1),…, x 1)) för i = 1, …, n,

där 1.,…, 1. Modellen som ligger till grund för denna hypotes är att de slumpmässiga variablerna X IJ har en utbytbar fördelning. Detta är en lämplig modell för upprepade åtgärder, där det inte är lämpligt att anta oberoende inom ett block . Vi noterar också att denna formulering av nollhypotesen och den för fasta block är konsekventa mot samma alternativ, nämligen negationen av H 0. För en detaljerad diskussion om denna fråga, se .

oavsett om block är fasta eller slumpmässiga, om nollhypotesen är sant, är alla permutationer av 1, …, k lika troliga. Det finns k ! möjliga sätt att tilldela k rank poäng till k-grupperna inom varje block och alla dessa intra-block permutationer är equiprobable under H 0. Eftersom samma permutationsargument gäller för var och en av de n oberoende blocken finns det (k !) n lika sannolika rangkonfigurationer av rangpoängen r ij i tvåvägslayouten . Var och en av dessa permutationer har en sannolikhet för (k !)- n att bli realiserad. Den här funktionen används för att utvärdera nollfördelningen av rangsummorna R j , genom att räkna upp alla permutationer av tvåvägslayouten för rankningar.

Friedman teststatistik

under Friedman-nollhypotesen är den förväntade radsumman av rankningar för varje grupp lika med n (k + 1)/2. Friedman-teststatistiken

$$ {x}_r^2 = \ frac{12}{nk \ left( k+1\right)}{\displaystyle \sum_{j=1}^k{\left\{{R}_j – n\left (k+1\right) / 2 \ right\}}^2} $$

summerar de kvadratiska avvikelserna för de observerade rangsummorna för varje grupp, R j , från det gemensamma förväntade värdet för varje grupp, n(k + 1)/2, under antagandet att k-gruppfördelningarna är identiska. För små värden på k och n har den exakta fördelningen av X 2 r lagts fram, till exempel av Friedman . En algoritm för beräkning av den exakta gemensamma fördelningen av Friedman rang summor under null diskuteras i . För det speciella fallet med två parade prover, se .

beräkning av teststatistiken med hjälp av nollfördelningen av (k !) n möjliga permutationer är tidskrävande om k är stor. Friedman visade emellertid att när n tenderar till oändlighet konvergerar X 2 r i distribution till 2 DF = K − 1, en Chi-kvadrerad slumpmässig variabel med K − 1 frihetsgrader. Detta resultat används i det asymptotiska Friedman-testet. Friedman-testet avvisar H 0 vid en förspecificerad signifikansnivå, när teststatistiken X 2 r överstiger den 100(1 − kcal): e percentilen av den begränsande chi-kvadrerade fördelningen av x 2 r med k − 1 frihetsgrader . Teststatistiken måste justeras om det finns bundna led inom block . Olika modifieringar av Friedman-testet har också föreslagits , till exempel f-distributionen som ett alternativ till chi-squared-distributionen, liksom generaliseringar, såsom Skillings-Mack-teststatistiken för användning i närvaro av saknade data. Dessa och olika andra justeringar och icke-parametriska konkurrenter till Friedman-testet (t.ex. Kruskal-Wallis, Quade, Friedman aligned ranks test) diskuteras inte här (se).

parvisa jämförelsetester och ungefärlig kritisk skillnad

ofta är forskare inte bara intresserade av att testa den globala hypotesen om jämlikhet mellan grupper utan också, eller ännu mer, i slutsats om jämlikhet mellan par av grupper. Vidare, även om man huvudsakligen är intresserad av H 0 och hypotesen avvisas, kan en uppföljningsanalys genomföras för att fastställa möjliga orsaker till avslaget. Sådan analys kan avslöja gruppskillnader, men det kan också avslöja att inget av paren är signifikant annorlunda, trots ett globalt signifikant testresultat.

för att ta itu med dessa problem är det lämpligt att testa hypoteser om jämlikhet för par av grupper med hjälp av samtidiga jämförelsetester. Dessa multipeljämförelseförfaranden kan innebära, i 1 kg n (eller många-en) jämförelser, testning av K-1-hypoteser om jämlikhet för alla icke − kontrollgrupper mot studiekontrollen eller, i n kg n (alla par) jämförelser, med tanke på k(k-1)/2 hypoteser om jämlikhet mellan alla par av grupper. För båda typerna av jämförelser har ungefärliga tester med stort prov utformats. De är härledda för den situation där n, antalet block (dvs. ’provstorlek’), är stor.

tabell 2 visar den kritiska skillnaden (CD) ungefärliga tester för 1 kg n och N kg n jämförelser av Friedman rank summor, som rekommenderas i högt citerade monografier och papper och populära läroböcker om icke-parametrisk statistik. Den kritiska skillnaden är den Minsta erforderliga skillnaden i rangbelopp för att ett par grupper ska skilja sig åt vid den förutbestämda alfa-nivån av betydelse. Det är att notera att CD-statistiken i många publikationer beräknas med hjälp av skillnaden i rank summa medelvärden, dvs R j /n, snarare än rank summor. Resultaten är identiska, eftersom varje grupp har n observationer, om teststatistikformlerna modifieras på lämpligt sätt.

Tabell 2 Rekommenderad kritisk skillnad (CD) ungefärliga tester för 1 ACC n och n ACC n jämförelser av Friedman rank summor

När nollhypotesen för equidistribution av rankningar i n oberoende rankningar är sant, och villkoret för en stor provstorlek är sant, och det finns en uppfyllda, skillnaderna i rangbelopp är ungefär normalt fördelade . Låt d = R i-R j, med i exporter j, vara rank sum skillnaden mellan ett par grupper i och j. stödet för rank sum skillnaden d är Stängningen . Under nollhypotesen är det förväntade värdet E (d) = 0 och variansen Var(d) = nk(k + 1)/6 . Eftersom fördelningen av d är symmetrisk runt E ( d) = 0, är skevheten noll, liksom alla udda ordningsmoment. Kurtoskoefficienten, härledd av Whitfield som

$$ \mathrm{Kurt}(d)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\vänster( k+1\höger)}, $$

är mindre än 3 (dvs. negativt överskott av kurtos), vilket innebär att den diskreta rangskillnadsskillnadsfördelningen har tunnare svansar än det normala. Observera dock att kurtosen tenderar att 3 med ökande n, så en normal approximation är rimlig. Detta innebär att d har en asymptotisk n(0, var( d)) fördelning och att den normala avvikelsen \ (d/\sqrt{\mathrm{var} (d)} \) är asymptotiskt N (0, 1).

Som framgår av Tabell 2 rekommenderas det normala ungefärliga testet av olika författare när alla grupper ska jämföras mot varandra parvis. Det diskuteras också av dem Bisexar som en teststatistik som ska användas när alla grupper jämförs med en enda kontroll. Observera att de normala testförfarandena kontrollerar felfrekvensen familywise type-I genom att dividera den totala signifikansnivån med antalet jämförelser som utförts (dvs. c 1 i 1 kg n och c 2 I N kg n jämförelser). Det finns mer kraftfulla konkurrenter till denna korrigering av Bonferroni-typ, såsom Holm -, Hochberg-och Hommel-förfarandena. Dessa metoder för att kontrollera den totala falska positiva felfrekvensen utarbetas inte i detta dokument. För en handledning inom området för klassificeringsjämförelse, se Derrac et al. .

förutom den vanliga normala approximationen har samtidiga tester föreslagits som utnyttjar kovariansstrukturen för fördelningen av värdena för skillnader i rangbelopp. Medan n-rankningarna är ömsesidigt oberoende under H 0, rangsummorna och rangsummaskillnaderna är beroende och korrelerade också. Korrelationen mellan rank summa skillnader beror på rank summor inblandade. Specifikt, som rapporterats av Miller , när nollhypotesen är sann

$$ \mathrm{C}\mathrm{o}\mathrm{r}\vänster({R}_i-{r}_j,{r}_i-{r}_l\höger)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$

$$ \mathrm{C}\mathrm{o}\mathrm{r}\Left({r}_i-{r}_j,{r}_l-{r}_m\right)=0\kern2.25em i\ne j\ne l\ne m. $$

därför är korrelationen noll för par av rangsummaskillnader utan grupp gemensamt och 0,5 för par av skillnader med en grupp gemensamt för båda skillnaderna. Antalet korrelerade par minskar när k ökar. För en studie som involverar k-grupper är andelen korrelerade par lika med 4 / (k + 1) . Därför när k = 7, till exempel, 50% av paren är korrelerade, men när k = 79 endast 5% är korrelerade.

som noterats i olika studier (t.ex.), för 1 kg n jämförelser innebär denna korrelationsstruktur att när H 0 är sant och n tenderar till oändlighet sammanfaller fördelningen av skillnaderna mellan k − 1 − grupprankningssummorna och kontrollrankssumman med en asymptotisk (k-1) – variate normalfördelning med nollmedel. Det kritiska skillnadsvärdet kan därför approximeras med teststatistiken märkt CD M I tabell 2, där konstanten \ ({m}_ {\alpha, df = k-1, \ rho = {\scriptscriptstyle \ frac{1}{2}}} \) är den övre ath-percentilpunkten för fördelningen av det maximala värdet av (k − 1) lika korrelerade n(0,1) slumpmässiga variabler med gemensam korrelation \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) Proceduren har en asymptotisk familywise-felfrekvens lika med GHz .

För n dB n jämförelser betyder det att kovariansen för rangsummaskillnaderna är lika med kovariansen för skillnaderna mellan k oberoende slumpmässiga variabler med nollmedel och avvikelser nk (k + 1)/12. Således sammanfaller den asymptotiska fördelningen av \ (max \ left\{\left / {r}_i – {r}_j \ right/\right\}/\sqrt{nk\left( k+1 \ right) / 12}\) med fördelningen av intervallet (Q k, kub) av k oberoende n(0, 1) slumpmässiga variabler. Den tillhörande teststatistiken är CD Q, där den konstanta Q-exporten,DF = k, är den övre ath-percentilpunkten för den Studentiserade intervallet (q) – fördelningen med (k, Xiaomi) frihetsgrader . Återigen, eftersom testet tar hänsyn till den absoluta skillnaden mellan alla k-grupper samtidigt, är den asymptotiska familywise-felfrekvensen lika med Bisexuell .

Friedman-statistiktestet i sig ger upphov till det samtidiga testet som nämns i den nedre raden i Tabell 2. Nollhypotesen accepteras om skillnaden i rangbelopp inte överstiger det kritiska värdet \( C{D}_{\chi^2}. \ ) Denna asymptotiska chi-squared approximation rekommenderas i vissa populära läroböcker, även om Miller har hävdat att sannolikhetsdeklarationen inte är den skarpaste av tester.

statistiska effekt-och alternativtester

Observera att CD – teststatistiken som presenteras i Tabell 2 inte kräver information om de rangordningar inom blocket som bestämts i experimentet. Snarare antar de samtidiga rangtesterna alla att inom varje block är varje observation lika sannolikt att ha någon tillgänglig rang. När detta är sant är kvantiteten (k + 1) (k − 1)/12 variansen för rangordningen inom blocket och nk (k + 1)/6 variansen för skillnaden mellan två rangbelopp . Därför har nollfördelningen av d i befolkningen noll medelvärde och känd standardavvikelse. Detta är den exakta anledningen till att de normala ungefärliga testerna använder z-poängen som teststatistik. Det är emellertid viktigt att betona i detta sammanhang att kvadratroten av nk(k + 1)/6 är standardavvikelsen för d när den totala nollhypotesen är sant, men inte när den är falsk. Den rymmer, liknar p-värden, endast i en viss modell, dvs H 0; en modell som kanske eller inte kan vara sant. Om nollhypotesen är falsk är kvantiteten nk (k + 1)/6 vanligtvis en överskattning av variansen, och detta medför att samtidiga tester, ungefärliga och exakta, förlorar kraft.

det finns parvisa jämförelsetester för Friedman rank summor tillgängliga som beräknas på de observerade rank poäng snarare än rank summor. Dessa tester , som Rosenthal-Ferguson-testet och det populära Conover-testet, använder t-poängen som teststatistik. De parvisa t-testerna är ofta kraftigare än de samtidiga testerna som diskuterats ovan, men det finns också nackdelar. I korthet använder Rosenthal-Ferguson-testet de observerade varianserna och kovariansen för rangpoängen för varje enskilt grupppar för att erhålla ett standardfel på d för testet av betydelsen av den parvisa rangsummaskillnaden. Detta standardfel är giltigt om nollhypotesen om ingen parvis skillnad är sant eller inte. Men bredvid den formella begränsningen av testet att n ska vara större än k + 1, kan variansen för d uppskattas dåligt, eftersom det vanligtvis finns få frihetsgrader tillgängliga för (co-)variansuppskattning i Friedman-testapplikationer med små prov. Dessutom är de observerade (co-)varianserna olika för varje par grupper. Följaktligen följer det inte av betydelsen av en skillnad av en given rang summa A från en annan rang summa B, att en tredje rang summa C, mer annorlunda än A än B är, också skulle vara väsentligt annorlunda. Detta är en obehaglig egenskap hos testet.

Conover-testet Uppskattar standardavvikelsen för d genom att beräkna ett poolat standardfel från (co-)varianserna för de observerade rangpoängen för alla grupper, vilket ökar statistisk effekt. Metoden liknar Fishers protected Least Significant Difference (LSD) – test, tillämpat på rankningspoäng. I denna metod görs ingen justering för multipel testning av p-värdena för att bevara familywise-felfrekvensen vid den nominella signifikansnivån. Snarare är testet skyddat i den meningen att inga parvisa jämförelser utförs om inte den totala teststatistiken är signifikant. Liksom i Fisher protected LSD-proceduren har Conover-testet egenskapen att införliva det observerade F-värdet för det totala testet i den inferentiella beslutsprocessen. I motsats till Fisher protected LSD, som endast använder det observerade F-värdet på ett 0-1 (’go/no go’) sätt, använder Conover-testet F-värdet på ett smidigt sätt när man beräknar LSD. Det vill säga den har den ovanliga egenskapen att ju större den totala teststatistiken är, desto mindre är den minst signifikanta skillnadströskeln för att förklara att en rangsummaskillnad är signifikant. Duncan-Waller-testet har samma egenskap, men detta test förespråkar ett Bayesiskt tillvägagångssätt för flera jämförelser med Bayes LSD. Eftersom jämförelsetesterna i det andra steget är villkorade av resultatet av det första steget, har den nominella alfa-nivån som används i det parvisa Conover-testet ingen verklig probabilistisk betydelse i frekventistisk mening. Som nämnts av Conover och Iman (: 2), ” eftersom nivån på andra stegstestet vanligtvis inte är känt, är det inte längre ett hypotesprov i vanlig mening utan snarare bara en lämplig måttstock för att separera vissa behandlingar från andra.”

exakt fördelning och snabb p-värdeberäkning

Vi presenterar ett exakt test för samtidig parvis jämförelse av Friedman rank summor. Den exakta nollfördelningen bestäms med hjälp av metoden för sannolikhetsgenererande funktion. Genererande funktioner ger ett elegant sätt att få Sannolikhet eller frekvensfördelningar av distributionsfri teststatistik . Tillämpning av genereringsfunktionsmetoden ger upphov till följande sats, vars bevis finns i ytterligare fil 1.

Sats 1 för N ömsesidigt oberoende heltalsvärderade rankningar, var och en med lika sannolika rankpoäng som sträcker sig från 1 till k, den exakta sannolikheten för att erhålla parvis skillnad d för två rangsummor är lika med

$$ p\vänster( D= d; k, n\höger)={\left\{ k\vänster( k-1\höger)\right\}}^ {- n} W\vänster( D= d; k, n\höger), $$

där

$$ w\vänster( D= D; k, n\right)={\left\{ k\left( k-1\right)\right\}}^n{\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill\end{array} \right)}\\ frac{1}{k^h {\left(1 – k\right)}^n} {\displaystyle\sum_{i=0}^H {\displaystyle\sum_{j=0}^h {\Left(-1\right)}^{\left( J – I\right)}}}\left (\begin{array}{C}\hfill h\hfill\ \ {array} \ right) \left (\begin{array} {C} \hfill h\hfill\end{array}\right)\left (\begin {array} {C} \ hfill k \ left( j – i\right)- d+ h-1\hfill \\{}\hfill k\left( J – I\right)- d – h\hfill\end{array}\right) $$

är antalet distinkta sätt en rang summa skillnad på d kan uppstå, med d som har stöd på d = .

ytterligare fil 1 erbjuder också ett slutet formuläruttryck för det exakta p-värdet av d. p-värdet definieras som sannolikheten för att få ett resultat som är minst lika extremt som det som observerats, med tanke på att nollhypotesen är sant. Det erhålls som summan av sannolikheterna för alla möjliga d, för samma k och n, som är lika troliga eller mindre troliga än det observerade värdet av d under noll. Det exakta p-värdet betecknas P (d; k, n), och det beräknas med uttrycket

$$ \ begin{array}{l} P \ left (D \ ge d; k, n\right)={\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill\end{array} \right)}\\ frac{1}{k^h {\left(1 – k\right)}^n} {\displaystyle\sum_{i=0}^H {\displaystyle\sum_{j=0}^h {\left(-1\höger)}^{\Left( J – I\right)}}}\left (\begin{array}{C}\hfill h\hfill\ \ {} \ hfill i\hfill\end{array} \right)\left (\begin{array}{C}\hfill k\left (J – I\right) – d+ h \ hfill \ \{}\hfill k \vänster( j – i\höger) – d – h\hfill\end{array}\höger),\\{}\kern27.5EM d=- n \ vänster( K-1 \ höger), \Dots, n\vänster( K-1\höger).\ end{array} $$

beräkning av det exakta p-värdet med detta tredubbla summeringsuttryck ger en hastighet av storleksordningar över fullständig uppräkning av alla möjliga resultat och deras sannolikheter med en brute-force permutation tillvägagångssätt. För större värden på n är dock exakt beräkning något tidskrävande och för att utöka det praktiska intervallet för att utföra exakta tester är det önskvärt att beräkna p-värdet mer effektivt.

eftersom flera jämförelsetester i praktiken handlar om absoluta skillnader är det också lämpligt att beräkna den kumulativa sannolikheten för det absoluta värdet av skillnader i rangbelopp. Eftersom antalet masspunkter för den symmetriska fördelningen av d är ett heltal av formen 2n (k − 1) + 1, har fördelningen ett udda antal sannolikheter. Detta innebär att, eftersom sannolikhetsmassfunktionen för d är symmetrisk runt noll, kan sannolikhetsmassan till vänster om d = 0 vikas över, vilket resulterar i en vikad fördelning av icke-negativ d. Följaktligen kan det ensidiga p-värdet av icke-negativ d i intervallet d = 1, …, n(k − 1) erhållas som summan av de två ensidiga p-värdena för den symmetriska fördelningen med stöd d = . Eftersom fördubbling av det ensidiga p-värdet leder till ett p-värde för d = 0 som överstiger enhet, beräknas p-värdet för d = 0 (endast) som P(D 0; k, n) = P(D = 0) + P(D 1), och detta är exakt lika med 1.

för att påskynda beräkningen omvandlar vi den dubbla summeringen över indexen i och j i uttrycket för P(D 6BL d; k, n) till en summering över ett enda index, S säger, med Sats 2. Beviset ges i ytterligare Fil 2.

Sats 2 för icke – negativa heltal d och k

$$ {\displaystyle \sum_{i=0}^H{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – I\right)}}}\left(\begin{array}{C}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\höger)\vänster(\begin{array}{C}\Hfill h\hfill \\ {}\hfill j\hfill \end{array}\höger)\vänster(\begin{array}{C}\hfill k\left( J – i\höger) – d+ h\hfill \\ {}\hfill k\left( J – i\höger) – d-h\hfill \end{array}\right)={\displaystyle \sum_{s=0}^h{\left(-1\Right)}^s}\left(\begin{array}{C}\hfill 2 h\hfill \\ {}\hfill h+ S\hfill \end{array}\right)\left(\begin{array}{C}\hfill k s- d + h\hfill \\{} \hfill k s – d – h\hfill \ end{array} \ höger). $ $

denna reduktion till en enstaka sum-funktion innebär att p-värdet alternativt kan beräknas från det mycket enklare uttrycket

$$ p \ left( D \ ge \ \ left / d \ right|; k, n\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{s=0}^h{\left(-1\höger)}^s\vänster(\begin{array}{C}\hfill 2 h\hfill \\ {}\hfill h+ S\hfill \end{array}\höger)\vänster(\begin{array}{C}\hfill ks – d+ h\hfill \\ {}\hfill\end{array} \höger)},\kern1.8em d=1, \Dots, n\left( K – 1\höger)\hfill\ \ {} 1 \ kern22.5EM d=0,\kern3em\end{array} \höger. $$

och, som vi kommer att visa, även för större värden på n på ett beräkningsmässigt snabbt sätt.

programvaruimplementering

Även om de två uttrycken för det exakta p-värdet är matematiskt korrekta kan enkel beräkning ge beräkningsfel. Även för måttliga värden på n (20 eller så) kan binomialkoefficienten som har d i indexen bli extremt stor och lagring av dessa siffror för efterföljande multiplikation skapar numeriskt överflöde på grund av precisionsbegränsningen av fast precision aritmetik. Ett sätt att hantera detta fel är att använda en återkommande relation som uppfyller genereringsfunktionen . De rekursioner vi undersökte var alla beräkningsmässigt dyra att köra, dock med undantag för små värden på n och/eller k. ett snabbare sätt att beräkna det exakta p-värdet korrekt är att använda godtycklig precision aritmetisk beräkning för att hantera siffror som kan vara av godtycklig stor storlek, begränsad endast av det tillgängliga datorminnet.

beräkningen av p-värdet för den absoluta rangsummaskillnaden d givet k och n implementeras i R . R-koden, som kräver att paketet Rmpfr för hög precision aritmetik ska installeras, finns i ytterligare fil 3. Scriptet märkt pexactfrsd beräknar det exakta p-värdet P(d megapixlar |d|) och ger dessutom möjligheten att beräkna sannolikheten P (D = |d|) och det (kumulativa) antalet kompositioner av d(D.V. S. W(D = |D|) och W (D megapixlar |d|)). R-koden och potentiella framtida uppdateringar finns också på http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

för att illustrera härledningarna erbjuder ytterligare fil 4 ett litet numeriskt exempel (k = 3, n = 2) och ytterligare fil 5 tabellerar antalet kompositioner av d för kombinationer av k = n = 2,…, 6,för inkludering i OEIS . Som kan ses i ytterligare fil 5, för små värden på n är den utfällda, symmetriska fördelningen av d bimodal, med lägen vid + 1 och-1 . Den här funktionen försvinner snabbt när n ökar, specifikt för k > 2 Vid n 6.

hädanefter, om inte annat anges, kommer vi att betrakta värdet av rank sum difference d som antingen noll eller positiv, från 0 till n(k − 1) och därmed släppa absolutvärdessymbolen runt d.

ofullständiga rankningar

eftersom n-rankningarna {1,2,…, k} är ömsesidigt oberoende kan vi dela dem i två (eller flera) lika eller ojämna delar, märkta (D 1; k, n 1) och (D 2; k, n 2), med 2 T = 1 d t = d, och D t betecknar skillnaderna i rangbelopp för de två delarna. Det exakta p-värdet kan erhållas med

$$ p\vänster( D\ge d; k, n\höger)= p\vänster( D\ge d; k,{n}_1,{n}_2\höger)={\displaystyle \sum_{i=-{n}_1\vänster( k-1\höger)}^{n_1\vänster( k-1\höger)} P\vänster({d}_1= i; k,{n}_1\höger)}\gånger p\vänster({D}_2\ge \vänster( d – i\höger); k,{n}_2\right), $$

där – som indikeras av summationens nedre gräns – beräkning utförs med hjälp av p-värdeuttrycket som möjliggör negativ d. en unik och användbar egenskap för den exakta metoden, som inte delas av de ungefärliga metoderna som diskuteras, är att det är lätt att beräkna P-värdesannolikheter för mönster med ojämna blockstorlekar k; t.ex. mönster där n 1 har rankningar {1, 2,…, k 1} och n 2 rankningar {1, 2,…, k 2}, med K 1 msk k 2. Ett allmänt uttryck för att beräkna det exakta p-värdet i ofullständiga mönster med J ojämna delar är

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\Left({k}_1-1\right)}{\displaystyle \sum_{i_2=-{n}_2\Left({k}_2-1\right)}^{n_2\left({k}_2-1\right)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\right)}^{n_{J-1}\vänster({k}_{J-1}-1\höger)}} p\vänster({D}_1={i}_1;{K}_1,{n}_1\höger) \gånger }}\ \\ {}\kern4.25em \\ {}\kern4em p\vänster({d}_2={i}_2;{k}_2,{n}_2\höger)\gånger \cdots \gånger P\vänster({D}_{j-1}={I}_{j-1};{k}_{j-1},{n}_{j-1}\höger)\gånger P\vänster({d}_j\ge \vänster( d-{i}_1-{i}_2\cdots -{i}_{j-1}\höger);{k}_j,{n}_j\höger),\end{array} $$

där J T = 1 D T = D, och ett exempel där n är indelat i tre delar, var och en med ett unikt värde på K (K 1, k 2, K 3), är

$$ \begin{array}{l} p\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\höger)={\displaystyle \sum_{i=-{n}_1\vänster({k}_1-1\höger)}^{n_1\vänster({k}_1-1\höger)}{\displaystyle \sum_{j=-{n}_2\vänster({k}_2-1\höger)}^{n_2\vänster({k}_2-1\höger)} p\vänster({d}_1= i;{k}_1,{n}_1\höger) \gånger }}\\ {}\\ {}\kern13. 5em P \ vänster ({D}_2= j; {k}_2, {n}_2 \ höger)\gånger P\vänster({D}_3 \ge\vänster( d – I – j\höger); {k}_3,{n}_3 \ höger).\ end{array} $$

även om sum-funktionerna saktar ner beräkningen, gör denna unika egenskap av exakt p-värdeberäkning att man kan utföra giltiga samtidiga signifikanstester när vissa inom-block-rankningar saknas av design. Sådana tester skulle vara svåra att åstadkomma med hjälp av en av approximationsmetoderna med stort prov. Ett empiriskt exempel kommer att ges i Applikationsavsnittet.

exakta och mellersta p-värden

eftersom parvisa skillnader med stöd på d = är symmetriskt fördelade runt noll under H 0, är fördubbling av ensidigt p-värde det mest naturliga och populära valet för ett vanligt exakt test. Ett test med exakt p-värde garanterar att sannolikheten för att begå ett typ-i-fel inte överstiger den nominella signifikansnivån. Men eftersom typ-i-felfrekvensen alltid ligger under den nominella nivån är ett signifikanstest med exakt p-värde ett konservativt tillvägagångssätt för testning, särskilt om testet involverar en mycket diskret fördelning . Mid p-värdet, vanligen definierat som halva sannolikheten för en observerad Statistik plus sannolikheten för mer extrema värden, dvs

$$ {p}_{\mathrm{mid}}\vänster( D\ge d; k, n\höger)={\scriptscriptstyle \frac{1}{2}} P\vänster( D= D\höger)+ P\vänster( D> d\right), $$

förbättrar detta problem. Mid p-värdet är alltid närmare den nominella nivån än det exakta p-värdet, på bekostnad av att ibland överskrida den nominella storleken.

bundna rankningar

mitten av p-värdet kan också användas för att hantera bundna rankningar. När Band uppstår inom block tilldelas Mid-rank (dvs. medelvärdet av rankningarna) vanligtvis varje bundet värde. Om, som ett resultat av bundna led, den observerade rangsummaskillnaden är ett heltal D plus 0,5, kan p-värdet erhållas som medelvärdet av de exakta p-värdena för de intilliggande heltalen d och d + 1, dvs \( {\scriptscriptstyle \frac{1}{2}}\left,\) och detta motsvarar mitten av p-värdet. Det är att notera att den resulterande sannolikheten inte är exakt giltig. Exakta p-värden representerar exakta frekvenssannolikheter för vissa händelser, och mitten av p-värden har ingen sådan frekvenstolkning. Det kan dock hävdas att denna tolkningsnackdel är av liten praktisk oro och att användning av mitten av p-värden är en nästan exakt frekvensmetod. För en diskussion om andra behandlingar av band i rangtest, se .