Articles

nøjagtige p-værdier til parvis sammenligning af Friedman-rangsummer med anvendelse til sammenligning af klassifikatorer

Friedman-data

for at udføre Friedman-testen er de observerede data arrangeret i form af et komplet tovejslayout, som i tabel 1a, hvor k-rækkerne repræsenterer grupperne (klassifikatorer) og n-kolonnerne repræsenterer blokkene (datasæt).

tabel 1 tovejs layout til Friedman test

dataene består af N blokke med k observationer inden for hver blok. Observationer i forskellige blokke antages at være uafhængige. Denne antagelse gælder ikke for K-observationer inden for en blok. Testproceduren forbliver gyldig på trods af afhængigheder inden for blokken . Friedman-teststatistikken er defineret på rangerede data, så medmindre de originale rådata er heltalsværdierede rangscore, rådataene er rangtransformerede. Rangposterne i tabel 1b opnås ved først at bestille rådataene {IJ ; i = 1, …, n, j = 1, …, k} i tabel 1a kolonnemæssigt fra mindst til størst inden for hver af N-blokkene separat og uafhængigt og derefter tildele heltalene 1,…, k som rangscore for k-observationerne inden for en blok. Rækkesummen for rækkerne for en hvilken som helst gruppe j er rangsummen defineret som R j = Kurt n i = 1 r ij .

Nulhypotese

den generelle nulhypotese for Friedman-testen er, at alle k-blokerede prøver, hver af størrelse n, kommer fra identiske, men uspecificerede befolkningsfordelinger. For at specificere denne nulhypotese mere detaljeret, lad IJ betegne en tilfældig variabel med ukendt kumulativ fordelingsfunktion F Ij , og lad IJ betegne realiseringen af IJ .

nulhypotesen kan defineres på to måder afhængigt af om blokke er faste eller tilfældige . Hvis blokke er faste, er alle måleværdierne for K-Krust n uafhængige. Hvis der er k-grupper, der tilfældigt er tildelt til at holde k ikke-relateret IJ inden for hver blok, som i et randomiseret komplet blokdesign, kan nulhypotesen om, at k-grupperne har identiske fordelinger, formuleres som

H 0 : F I1(H) = … = F i (H) for hver i = 1,…, n,

hvor F i (H) er fordelingen af observationerne i ith-blokken . Den samme hypotese, men mere specifik, opnås, hvis den sædvanlige additivmodel antages at have genereret IJ i tovejslayoutet . Additivmodellen dekomponerer den samlede effekt på måleværdien til en samlet effekt-larr, blok i-effekt-larr i og gruppe j-effekt-larrr j . Hvis fordelingsfunktionen er betegnet F ij (K) = F(k − l − l − l-l-l-l ), kan nulhypotesen om ingen forskelle mellem K-grupperne angives som

$$ {H}_0:\kern0.5EM {\tau}_1=\dots ={\tau}_k, $$

og den generelle alternative hypotese som

\( {H}_1:\kern0.5EM {\Tau}_{j_1}\ne {\Tau}_{j_2} \) for mindst et (j 1, J 2) par.

bemærk, at denne repræsentation også hævder, at de underliggende fordelingsfunktioner F i1(H), …, F ik (H) inden for blok i er de samme, dvs. at F I1(H) = … = F ik (H) = F i (H), for hver fast i = 1,…, n.

Hvis blokke er tilfældige, vil målinger fra den samme tilfældige blok være positivt korreleret. For eksempel, hvis et enkelt emne danner en blok, og der foretages k-observationer om emnet, muligvis i randomiseret rækkefølge, er observationerne inden for blokken afhængige. En sådan afhængighed forekommer i et design med gentagne målinger, hvor n-forsøgspersoner observeres, og hvert individ testes under k-betingelser. Angiv den fælles fordelingsfunktion af observationer inden for blok i ved F i (1, …, k ). Derefter er nulhypotesen om ingen forskelle mellem K-grupperne hypotesen om udskiftelighed af de tilfældige variabler I1,…, ik, formuleret som

H 0 : F i (1,…, k ) = F i (1),…, K(K)) for i = 1,…, n,

hvor Kurt(1),…, Kurt(k) betegner enhver permutation af 1,…, k. Modellen, der ligger til grund for denne hypotese, er, at de tilfældige variabler IJ har en udskiftelig fordeling. Dette er en passende model til gentagne foranstaltninger, hvor det ikke er hensigtsmæssigt at antage uafhængighed inden for en blok . Vi bemærker også, at denne formulering af nulhypotesen og den for faste blokke er konsistente mod det samme alternativ, nemlig negationen af H 0. For en detaljeret diskussion af denne sag, se .

uanset om blokke er faste eller tilfældige, hvis nulhypotesen er sand, så er alle permutationer af 1, …, k lige sandsynlige. Der er k ! mulige måder at tildele k-rangscore til k-grupperne inden for hver blok, og alle disse permutationer inden for blokken kan udstyres under H 0. Da det samme permutationsargument gælder for hver af de n uafhængige blokke, er der (k !) n lige så sandsynlige rang konfigurationer af rang scorer r ij i to-vejs layout . Hver af disse permutationer har en sandsynlighed for (k !)- n for at blive realiseret. Denne funktion bruges til at evaluere nulfordelingen af rangsummen R j ved at opregne alle permutationer af tovejs layout af rækker.

Friedman teststatistik

under Friedman nulhypotesen er den forventede rækkesum af rækker for hver gruppe lig med n(k + 1) / 2. Friedman-teststatistikken

$ $ {} _r^2= \ frac{12}{NK \ left (k + 1 \ right)} {\displaystyle \ sum_{j=1}^k {\left\{{r}_j-n \ left (k + 1 \ right) / 2 \ right\}}^2} $$

opsummerer de kvadratiske afvigelser af de observerede rangsummer for hver gruppe, R j , fra den fælles forventede værdi for hver gruppe, n(k + 1)/2, under antagelse af, at k-gruppefordelingerne er identiske. For små værdier af k og n er den nøjagtige fordeling af 2 r blevet fremlagt, for eksempel af Friedman . En algoritme til beregning af den nøjagtige fælles fordeling af Friedman-rangsummen under null diskuteres i . For det særlige tilfælde af to parrede prøver, se .

beregning af teststatistikken ved hjælp af nulfordelingen af (k !) n mulige permutationer er tidskrævende, hvis k er stor. Friedman viste imidlertid, at når n har tendens til uendelig, konvergerer 2 r I fordeling til 2 DF = K − 1 , en chi-kvadreret tilfældig variabel med K − 1 frihedsgrader. Dette resultat bruges i den asymptotiske Friedman-test. Friedman-testen afviser H 0 på et forud specificeret signifikansniveau, når teststatistikken H2 r overstiger 100 (1-liter)percentilen af den begrænsende chi-kvadrerede fordeling af H2 r med K-1 frihedsgrader . Teststatistikken skal justeres, hvis der er bundet rækker inden for blokke . Der er også foreslået forskellige modifikationer af Friedman-testen, for eksempel F-fordelingen som et alternativ til chi-kvadreret fordeling såvel som generaliseringer , såsom Skillings-Mack-teststatistikken til brug i nærvær af manglende data. Disse og forskellige andre justeringer og ikke-parametriske konkurrenter til Friedman-testen (f.eks.

parvis sammenligningstest og omtrentlig kritisk forskel

ofte er forskere ikke kun interesserede i at teste den globale hypotese om ligestilling af grupper, men også eller endnu mere i indledning om ligestilling af par af grupper. Yderligere, selvom man hovedsageligt er interesseret i H 0 og hypotesen afvises, kan der udføres en opfølgningsanalyse for at bestemme mulige årsager til afvisningen. En sådan analyse kan afsløre gruppeforskelle, men det kan også afsløre, at ingen af parene er signifikant forskellige, på trods af et globalt signifikant testresultat.

for at løse disse problemer er det hensigtsmæssigt at teste hypoteser om lighed for par af grupper ved hjælp af samtidige sammenligningstest. Disse multiple sammenligningsprocedurer kan involvere, i 1 kur N (eller mange-en) sammenligninger, test af k − 1 hypoteser om lighed for alle ikke-kontrolgrupper mod undersøgelseskontrollen eller i n-kur N (alle − par) sammenligninger, i betragtning af k(k-1)/2 hypoteser om lighed mellem alle par af grupper. For begge typer sammenligninger er der designet omtrentlige prøver med store prøver. De er afledt for den situation, hvor n, antallet af blokke (dvs. ‘prøvestørrelse’), er stor.

tabel 2 viser den kritiske forskel (CD) omtrentlige test for 1 liter N og N liter n sammenligninger af Friedman rangsummer, som anbefalet i højt citerede monografier og papirer og populære lærebøger om ikke-parametrisk statistik. Den kritiske forskel er den mindste krævede forskel i rangbeløb for et par grupper at afvige på det forud specificerede alfa-niveau af betydning. Det skal bemærkes, at CD-statistikken i mange publikationer beregnes ved hjælp af forskellen i rank sum gennemsnit, dvs.R j /n, snarere end rank Summer. Resultaterne er identiske, da hver gruppe har n observationer, hvis teststatistikformlerne ændres korrekt.

tabel 2 anbefalet kritisk forskel (CD) omtrentlige test for 1 liter N og N liter n sammenligninger af Friedman rank sums

når nulhypotesen om ækvidistribution af rækker i n uafhængige placeringer er sand, og betingelsen for en stor stikprøvestørrelse er korrekt, og en stor stikprøvestørrelse er den samme, når nulhypotesen om ligfordeling af rækker i n uafhængige placeringer er sand, og betingelsen for en stor stikprøvestørrelse er opfyldt er forskellene i rangbeløb omtrent normalt fordelt . Lad d = R i-R j, med i Kurt j, være rangsumsforskellen mellem et par grupper i og j. støtten til rangsumsforskel d er lukningen . Under nulhypotesen er den forventede værdi E(d) = 0 og variansen Var(d) = nk (k + 1)/6 . Da fordelingen af d er symmetrisk omkring E (d) = 0, er skævheden nul, ligesom alle ulige ordensmomenter. Kurtosekoefficienten, afledt af Hvidfelt som

$$ \mathrm{Kurt}(d)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\left( k+1\right)}, $$

er mindre end 3 (dvs.negativt overskydende kurtose), hvilket antyder, at den diskrete rangsumsforskelfordeling har tyndere haler end det normale. Bemærk dog, at kurtosen har tendens til at 3 med stigende n, således er en normal tilnærmelse rimelig. Dette indebærer, at d har en asymptotisk n(0, Var( d)) fordeling, og at den normale afvigelse \ (d/\kvm{\mathrm{Var} (d)} \) er asymptotisk N (0, 1).

som det kan ses i tabel 2, anbefales den normale omtrentlige test af forskellige forfattere, når alle grupper skal sammenlignes med hinanden parvis. Det diskuteres også af dem Kurtar som en teststatistik, der skal anvendes, når alle grupper sammenlignes med en enkelt kontrol. Bemærk, at de normale testprocedurer styrer den familiemæssige Type-i-fejlrate ved at dividere det samlede signifikansniveau med antallet af sammenligninger, der udføres (dvs.c 1 i 1 liter n og c 2 i n liter n sammenligninger). Der er mere magtfulde konkurrenter til denne Bonferroni-type korrektion til rådighed, såsom Holm, Hochberg, og Hommel procedurer. Disse metoder til at kontrollere den samlede falske positive fejlrate er ikke uddybet i dette papir. For en tutorial inden for klassificeringssammenligning, se derrac et al. .

ud over den almindelige normale tilnærmelse er der foreslået samtidige tests, der udnytter kovariansstrukturen i fordelingen af værdierne for forskelle i rangsummer. Mens N-placeringerne er gensidigt uafhængige under H 0, rangsummen og rangsumforskellene er også afhængige og korrelerede. Korrelationen mellem rangsumforskellene afhænger af de involverede rangsummer. Specifikt, som rapporteret af Miller , når nulhypotesen er sand

$$ \mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_i-{R}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$
$$ \mathrm{C}\mathrm{o}\mathrm{r}\Left({r}_i-{r}_j,{r}_l-{r}_m\right)=0\kern2.25em i\ne J\ne l\ne m. $$

derfor er korrelationen nul for par af rangsumforskelle uden nogen gruppe til fælles og 0,5 for par af forskelle med en gruppe til fælles for begge forskelle. Antallet af korrelerede par falder, når k stiger. For en undersøgelse, der involverer k-grupper, er andelen af korrelerede par lig med 4/(k + 1) . Derfor når k = 7, for eksempel, er 50% af parene korreleret, men når k = 79 kun 5% er korreleret.

som bemærket i forskellige undersøgelser (f.eks.), for 1 − sammenligninger af liter N denne korrelationsstruktur indebærer, at når H 0 er sand og n har tendens til uendelig, falder fordelingen af forskellene mellem K − 1-gruppens rangsummer og kontrolrangsummen sammen med en asymptotisk (k-1) – variat normalfordeling med nul midler. Den kritiske forskelværdi kan derfor tilnærmes med teststatistikken mærket CD M i tabel 2, Hvor konstanten \ ({m}_{\alpha, DF= k-1, \ rho ={\scriptscriptstyle \frac{1}{2}}} \) er det øverste ATH-percentilpunkt for fordelingen af den maksimale værdi af (k − 1) lige korreleret N(0,1) tilfældige variabler med fælles korrelation \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) Proceduren har en asymptotisk familievis fejlrate svarende til KKS .

for n-prissammenligninger betyder det, at kovariansen af rangsumforskellene er lig med K-variansen af forskellene mellem K uafhængige tilfældige variabler med nul midler og afvigelser nk(k + 1) / 12. Den asymptotiske fordeling af \( maks.\left\{\left|{R}_i-{R}_j\right|\right\}/\KVRT{NK\left( k+1\right)/12} \) falder således sammen med fordelingen af området (K k, liter) af K uafhængig N(0, 1) tilfældige variabler. Den tilhørende teststatistik er CD k, hvor den konstante k-Kurt, DF = k, Kurt er det øverste ATH-percentilpunkt i det Studentiserede område (k) fordeling med (k, Kurt) frihedsgrader . Igen, da testen betragter den absolutte forskel på alle k-grupper samtidigt, svarer den asymptotiske familievis fejlrate til kr .

Friedman-statistiktesten selv giver anledning til den samtidige test, der er nævnt i nederste række i tabel 2. Nulhypotesen accepteres, hvis forskellen i rangbeløb ikke overstiger den kritiske værdi \( C{D}_{\chi^2}. \ ) Denne asymptotiske chi-kvadreret tilnærmelse anbefales i nogle populære lærebøger, selvom Miller har hævdet, at sandsynlighedsopgørelsen ikke er den skarpeste test.

statistisk effekt og alternative tests

Bemærk, at CD-teststatistikken i tabel 2 ikke kræver oplysninger om de interne blokrækker som bestemt i eksperimentet. Hellere, de samtidige rangtest antager alle, at hver observation inden for hver blok lige så sandsynligt har nogen tilgængelig rang. Når dette er sandt, er mængden(k + 1) (k − 1)/12 variansen af placeringerne inden for blokken og nk (k + 1)/6 variansen af forskellen mellem to rangsummer . Derfor har nulfordelingen af d i befolkningen nul gennemsnit og kendt standardafvigelse. Dette er den nøjagtige grund til, at de normale omtrentlige tests bruger å-score som teststatistik. Det er dog vigtigt at understrege i denne sammenhæng, at kvadratroden af nk(k + 1)/6 er standardafvigelsen for d, når den samlede nulhypotese er sand, men ikke når den er falsk. Det holder, svarende til p-værdier, kun i en bestemt model, dvs.H 0; en model, der måske eller måske ikke er sand. Hvis nulhypotesen er falsk, er mængden nk (k + 1)/6 typisk et overestimat af variansen, og dette får samtidige tests, omtrentlige og nøjagtige, til at miste strøm.

der er parvise sammenligningstest for Friedman-rangbeløb til rådighed, der beregnes på de observerede rangscore snarere end rangsummen. Disse tests, såsom Rosenthal-Ferguson-testen og den populære Conover-test , bruger t-score som teststatistik. De parvise t-tests er ofte mere kraftfulde end de samtidige tests, der er diskuteret ovenfor, men der er også ulemper. Kort sagt, Rosenthal-Ferguson-testen bruger de observerede afvigelser og kovarians af rangscorerne for hvert enkelt par grupper, for at opnå en standardfejl på d til testen af betydningen af den parvise rangsumsforskel. Denne standardfejl er gyldig, uanset om nulhypotesen om ingen parvis forskel er sand eller ej. Ved siden af den formelle begrænsning af testen om, at n skal være større end k + 1, kan variansen af d imidlertid estimeres dårligt, da der typisk er få frihedsgrader til rådighed for (co-)variansestimering i Friedman-testapplikationer med lille prøve. Desuden er de observerede (co-)afvigelser forskellige for hvert par grupper. Derfor følger det ikke af betydningen af en forskel på en given rangsum A fra en anden rangsum B, at en tredje rangsum C, mere forskellig fra A end B er, også ville være væsentligt anderledes. Dette er et ubehageligt træk ved testen.

Conover-testen estimerer standardafvigelsen for d ved at beregne en samlet standardfejl fra (co -) varianserne for de observerede rangscore for alle grupper, hvilket øger statistisk styrke. Metoden svarer til Fishers beskyttede mindst signifikante forskel (LSD) test, anvendt til rang score. I denne metode foretages der ingen justering for flere test af p-værdierne for at bevare den familiemæssige fejlrate på det nominelle signifikansniveau. Snarere er testen beskyttet i den forstand, at der ikke udføres parvise sammenligninger, medmindre den samlede teststatistik er signifikant. Som i Fisher-beskyttet LSD-procedure har Conover-testen den egenskab at inkorporere den observerede F-værdi af den samlede test i den inferentielle beslutningsproces. I modsætning til den Fisher-beskyttede LSD, der kun bruger den observerede F-værdi på en 0-1 (‘go/no go’) måde, bruger Conover-testen F-værdien på en jævn måde, når man beregner LSD. Det vil sige, det har den usædvanlige egenskab, at jo større den samlede teststatistik er, jo mindre er den mindst signifikante differenstærskel for at erklære en rangsumforskel for at være signifikant. Duncan-væg-testen har den samme egenskab, men denne test går ind for en bayesisk tilgang til flere sammenligninger med Bayes LSD. Da sammenligningstestene i anden fase er betinget af resultatet af første fase, har det nominelle alfa-niveau, der anvendes i den parvise Conover-test, ingen reel sandsynlig betydning i hyppig forstand. Som bemærket af Conover og Iman (: 2), “da den anden-trins-prøves niveau normalt ikke er kendt, er det ikke længere en hypotesetest i sædvanlig forstand, men snarere blot en praktisk målestok til at adskille nogle behandlinger fra andre.”

nøjagtig fordeling og hurtig beregning af p-værdi

Vi præsenterer en nøjagtig test for samtidig parvis sammenligning af Friedman-rangsummer. Den nøjagtige nulfordeling bestemmes ved hjælp af sandsynlighedsgenererende funktionsmetode. Genereringsfunktioner giver en elegant måde at opnå Sandsynlighed eller frekvensfordeling af distributionsfri teststatistik . Anvendelse af den genererende funktionsmetode giver anledning til følgende sætning, hvis bevis er i yderligere fil 1.

sætning 1 For n gensidigt uafhængige heltalsværdige placeringer, hver med lige sandsynlige rangscore fra 1 til k, den nøjagtige Sandsynlighed for at opnå parvis forskel d for to rangbeløb er lig med

$$ P\left( D= d; k, N\right)={\left\{ k\left( k-1\right)\right\}}^ {- n} v\left( D= d; k, N\right), $$

hvor

$$ v\Left( d= d; k, n\right)={\left\{ k\left( k-1\right)\right\}}^n{\displaystyle \sum_{h=0}^n\Left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – K\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\Left(-1\right)}^{\left( J – I\right)}}}\left(\begin{array}{c}\hfill h\hfill \ \ \{}\hfill i \hfill\end{array}\right)\left (\begin{array}{c}\hfill h \ hfill \ \\\{}\hfill j\hfill\end{array}\right)\left (\begin{array}{c}\hfill k \ left( J – I \ right)- d+ h-1\hfill\\{}\hfill k \left( J – I\right)- d – h \ hfill \ end{array} \ right) $$

er antallet af forskellige måder en rang sum forskel på d kan opstå, med d har støtte på d = .

yderligere fil 1 tilbyder også et lukket formudtryk for den nøjagtige p-værdi af d. p-værdien defineres som sandsynligheden for at opnå et resultat mindst lige så ekstremt som det observerede, da nulhypotesen er sand. Det opnås som summen af sandsynlighederne for alle mulige d, for samme k og n, der er lige så sandsynlige eller mindre sandsynlige end den observerede værdi af D under null. Den nøjagtige p-værdi er betegnet P (d-bogstav d; k, n), og det beregnes ved hjælp af udtrykket

$$ \ begin{array}{l} P \ left (D \ ge d; k, n\right)={\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( J – I\right)}}}\left(\begin{array}{c}\hfill h\hfill \ \ \{}\hfill i \hfill\end{array}\right)\left (\begin{array}\right) \ left (\begin{array} {c}\hfill k\left( J – I \right)- d+ h\hfill\\{}\hfill k\left( J – I\right)- d – h\hfill \ end{array} \ right), \\{}\kern27.5EM d=- n\left( K-1 \right),\Dots, n\ left( k-1\ right).\ end{array} $$

beregning af den nøjagtige p-værdi med dette tredobbelte summationsudtryk giver en hastighed på størrelsesordener over fuldstændig optælling af alle mulige resultater og deres sandsynligheder ved en brute-force permutation tilgang. For Større værdier af n er nøjagtig beregning imidlertid noget tidskrævende, og for at udvide det praktiske interval til udførelse af nøjagtige test er det ønskeligt at beregne p-værdien mere effektivt.

fordi i praksis flere sammenligningstest vedrører absolutte forskelle, er det hensigtsmæssigt at beregne den kumulative sandsynlighed for den absolutte værdi af forskelle i rangbeløb. Da antallet af massepunkter i den symmetriske fordeling af d er et heltal af formen 2n (k − 1) + 1, har fordelingen et ulige antal sandsynligheder. Dette indebærer, at da sandsynlighedsmassefunktionen af d er symmetrisk omkring nul, kan sandsynlighedsmassen til venstre for d = 0 foldes over, hvilket resulterer i en foldet fordeling af ikke-negativ d. Følgelig kan den ensidige p-værdi af ikke-negativ d i området d = 1, …, n(k − 1) opnås som summen af de to ensidige p-værdier af den symmetriske fordeling med understøtning d = . Da fordobling af den ensidige p-værdi fører til en p-værdi for d = 0, der overstiger enhed, beregnes p-værdien for d = 0 (kun) som P(d-kur 0; k, n) = P(D = 0) + P(D-Kur 1), og dette er nøjagtigt lig med 1.

for at fremskynde beregningen transformerer vi den dobbelte summation over indekserne i og j i udtrykket for P(D-ret d; k, n) til en summation over et enkelt indeks, siger S, ved hjælp af sætning 2. Beviset er angivet i yderligere fil 2.

sætning 2 for ikke – negative heltal d og k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – I\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\højre)\venstre(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\højre)\venstre(\begin{array}{c}\hfill k\venstre( j – i\højre) – d+ h\hfill \ \ \{}\hfill k\venstre( j – i\højre) – d-h \hfill\end{array}\højre)={\displaystyle\sum_{s=0}^h {\Left(-1\right)}^s}\left (\begin{array}{c}\hfill 2 h \ hfill \ \{}\hfill h+ S \hfill\end{array}\right)\left (\begin{array}{c} \ hfill k s- d + h\hfill \ \ {} \hfill k s-d-h \ hfill \ end{array} \ højre). $$

denne reduktion til en enkelt sum-funktion indebærer, at p-værdien alternativt kan beregnes ud fra det meget enklere udtryk

$$ P\left (D \ ge \ \ left / D \ right|; k, n\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^n\left(\begin{array}{c}\hfill n\hfill \ \ \{}\hfill h \hfill\end{array}\right)}\frac{1}{k^h {\left(1 – k\right)}^n} {\displaystyle\sum_{s=0}^h {\left(-1\right)}^s\left (\begin{array}{c}\hfill 2 h \ hfill \ \{}\hfill h+ S \hfill\end{array}\right)\left (\begin{array}{c}\hfill KS – d+ h \ hfill \ \\{} \hfill KS – d – h\hfill \end{array}\right)},\kern1.8EM D=1,\Dots, n\left( k-1 \ højre) \ hfill\\{} 1 \kern22.5EM d=0,\kern3em \ end{array} \ højre. $$

og som vi vil vise, selv for større værdier af n på en beregningsmæssigt hurtig måde.

programmel implementering

selvom de to udtryk for den nøjagtige p-værdi er matematisk korrekte, kan ligetil beregning producere beregningsfejl. Selv for moderate værdier på n (20 eller deromkring) kan den binomiale koefficient, der har d i indekserne, blive ekstremt stor, og lagring af disse tal til efterfølgende multiplikation skaber numerisk overløb på grund af præcisionsbegrænsningen af fastpræcision aritmetik. En måde at løse denne fejl på er at bruge en gentagelsesrelation, der tilfredsstiller den genererende funktion . De rekursioner, vi undersøgte, var alle beregningsmæssigt dyre at køre, dog bortset fra små værdier på n og/eller k. en hurtigere måde at beregne den nøjagtige p-værdi korrekt på er at bruge arbitrær præcision aritmetisk beregning til at håndtere tal, der kan være af vilkårlig stor størrelse, kun begrænset af den tilgængelige computerhukommelse.

beregningen af p-værdien af den absolutte rangsumforskel d givet k og n implementeres i R . R-koden, som kræver pakken Rmpfr for høj præcision aritmetik, der skal installeres, er i yderligere fil 3. Scriptet, der er mærket P-værdi, beregner den nøjagtige p-værdi p(d-værdi |d|) og giver desuden mulighed for at beregne sandsynligheden P(D = |d|) og det (kumulative) antal sammensætninger af d (dvs.B(D = |D|) og B(D-værdi |d|)). R-koden og potentielle fremtidige opdateringer er også tilgængelige på http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

for at illustrere afledningerne tilbyder yderligere fil 4 et lille numerisk eksempel (k = 3, n = 2), og yderligere fil 5 tabulerer antallet af sammensætninger af d for kombinationer af k = n = 2,…,6, til optagelse i OEIS . Som det kan ses i yderligere fil 5, for små værdier af n den udfoldede, symmetriske fordeling af d er bimodal, med tilstande ved + 1 og − 1 . Denne funktion forsvinder hurtigt, når n øges, specifikt for k > 2 ved n-ret 6.

herefter, medmindre andet er angivet, vil vi betragte værdien af rangsumsforskel d som enten nul eller positiv, der spænder fra 0 til n(k − 1) og dermed droppe det absolutte værdisymbol omkring d.

ufuldstændige placeringer

fordi N-placeringerne {1,2,…,k} er gensidigt uafhængige, kan vi opdele dem i to (eller flere), lige eller ulige store dele, mærket (D 1; k, n 1) og (D 2; k, n 2), med kur 2 T = 1 D T = D, og D t angiver forskellene i rangsummer for de to dele. Den nøjagtige p-værdi kan opnås ved hjælp af

$$ P\left( D\ge d; k, n\right)= P\left( D\ge d; k,{n}_1,{n}_2\right)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} P\left({D}_1= i; k,{n}} _1\højre)}\gange p\venstre({d} _2\ge \venstre( d – i\højre); k,{n}_2\right), $$

hvor – som angivet ved summationens nedre grænse – beregning udføres ved hjælp af p-værdiekspression, der giver mulighed for negativ d. en unik og nyttig egenskab ved den nøjagtige metode, som ikke deles af de omtrentlige metoder, der diskuteres, er, at det er let at beregne P-værdi sandsynligheder for design med ulige blokstørrelser k; f.eks. design, hvor n 1 har rækker {1, 2,…, k 1} og n 2 rækker {1, 2,…, K 2}, med K 1 liter K 2. Et generelt udtryk til beregning af den nøjagtige p-værdi i ufuldstændige designs med J ulige størrelse er

$$ \begin{array}{l} P\left( d\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{i_2=-{n}_2\left({K}_2-1\right)}^{n_2\left({k}_2-1\right)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\right)}^{n_{J-1}\left({k}_{j-1}-1\right)}} p\Left({d}_1={i}_1;{k}_1,{n}_1\right) \times }}\ \\ {}\kern4.25em \\ {}\kern4em p\Left({d}_2={i}_2;{k}_2,{n}_2\right)\times \cdots \times P\left({D}_{j-1}={i}_{j-1};{k}_{j-1},{n}_{j-1}\right)\times P\left({D}_j\ge \left( d-{i}_1-{i}_2\cdots -{i}_{j-1}\right);{k}_j,{n}_j\left (d – {i} _1 – {i} _2\cdots – {i} _ {j-1} \right); {k} _j, {n} _j\til højre),\end {array} $$

hvor J T = 1 d t = d, og et eksempel, hvor n er opdelt i tre dele, hver med en unik værdi på K( K 1, K 2, K 3), er

$$ \ begin {array} {l} p \ left (d \ ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\right)={\displaystyle \sum_{i=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{j=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)} p\Left({d}_1= i;{k}_1,{n}_1\right) \times }}\\ {}\\ {}\kern13. 5EM P\venstre({D}_2= j;{k}_2,{n}_2\højre)\gange P\venstre({D}_3\ge \venstre( d – I – J\højre);{k}_3,{n}_3\højre).\end{array} $$

selvom sumfunktionerne bremser beregningen, gør denne unikke funktion ved nøjagtig beregning af p-værdi det muligt for en at udføre gyldige samtidige signifikanstest, når nogle inden for blokrækker mangler ved design. Sådanne tests ville være svære at udføre ved hjælp af en af tilnærmelsesmetoderne med stor prøve. Et empirisk eksempel vil blive givet i applikationsafsnittet.

nøjagtige og mid p-værdier

da parvise forskelle med understøttelse på d = er symmetrisk fordelt omkring nul under H 0, er fordobling af ensidig p-værdi det mest naturlige og populære valg til en almindelig nøjagtig test. En test med nøjagtig p-værdi garanterer, at sandsynligheden for at begå en type i-fejl ikke overstiger det nominelle signifikansniveau. Da type-i-fejlfrekvensen dog altid er under det nominelle niveau, er en signifikanstest med nøjagtig p-værdi en konservativ tilgang til test, især hvis testen involverer en meget diskret fordeling . Mid p-værdien, almindeligvis defineret som halvdelen af sandsynligheden for en observeret statistik plus sandsynligheden for mere ekstreme værdier, dvs.

$$ {P}_{\mathrm{mid}}\left( D\ge d; k, n\right)={\scriptscriptstyle \frac{1}{2}} P\left( D= d\right)+ P\left( D> d\right), $$

forbedrer dette problem. Den midterste p-værdi er altid tættere på det nominelle niveau end den nøjagtige p-værdi på bekostning af lejlighedsvis overskridelse af den nominelle størrelse.

bundet placering

mid p-værdien kan også bruges til at håndtere bundet placering. Når bånd forekommer inden for blokke, tildeles mellemranken (dvs.gennemsnittet af rækkerne) almindeligvis til hver bundet værdi. Hvis den observerede rangsumforskel som et resultat af bundne rækker er en heltalsværdi d plus 0,5, kan p-værdien opnås som gennemsnittet af de nøjagtige p-værdier for de tilstødende heltal d og d + 1, dvs. \ ({\scriptscriptstyle \frac{1}{2}}\venstre,\), og dette svarer til den midterste p-værdi. Det skal bemærkes, at den resulterende sandsynlighed ikke er nøjagtigt gyldig. Nøjagtige p-værdier repræsenterer nøjagtige frekvenssandsynligheder for visse begivenheder, og mid p-værdier har ingen sådan frekvensfortolkning. Det kan argumenteres, imidlertid, at denne fortolkende ulempe er af ringe praktisk betydning, og at anvendelse af mid p-værdier er en næsten nøjagtig frekvenstilgang. For en diskussion af andre behandlinger af bånd i rangtest, se .