Articles

Eksakte p-verdier for parvis sammenligning Av Friedman rang summer, med søknad om å sammenligne klassifikatorer

Friedman data

for å utføre Friedman test de observerte data er anordnet i form av en komplett toveis layout, som I Tabell 1a, hvor k-radene representerer gruppene (klassifikatorer) og n kolonner representerer blokkene (datasett).

Tabell 1 Toveis layout For Friedman test

dataene består av n blokker med k observasjoner innenfor hver blokk. Observasjoner i ulike blokker antas å være uavhengige. Denne antagelsen gjelder ikke for k-observasjonene i en blokk. Testprosedyren forblir gyldig til tross for blokkavhengigheter . Friedman – teststatistikken er definert på rangerte data, så med mindre de opprinnelige rådataene er heltallsverdier, blir rådataene ranktransformert. Rankoppføringene I Tabell 1B oppnås ved først å bestille rådataene {x ij ; i = 1,…, n, j = 1,…, k} I Tabell 1a kolonnevis fra minst til størst, innenfor hver av n-blokkene separat og uavhengig, og deretter tilordne heltallene 1,…, k som rankpoengene til k-observasjonene i en blokk. Radsummen av rekkene for enhver gruppe j er rangsummen definert som r j = ∑ n i = 1 r ij .

Nullhypotesen

Den generelle nullhypotesen Til Friedman-testen er at alle k-blokkerte prøver, hver av størrelse n, kommer fra identiske, men uspesifiserte populasjonsfordelinger. For å spesifisere denne nullhypotesen mer detaljert, la X ij betegne en tilfeldig variabel Med ukjent kumulativ fordelingsfunksjon F Ij , og la x ij betegne realiseringen Av X ij .

nullhypotesen kan defineres på to måter, avhengig av om blokkene er faste eller tilfeldige . Hvis blokkene er faste, er alle k × n måleverdier uavhengige. Hvis det er k-grupper tilfeldig tildelt for å holde k-ikke-relatert X Ij innenfor hver blokk, som i en randomisert komplett blokkdesign, kan nullhypotesen om at k-gruppene har identiske fordelinger formuleres som

H 0 : F I1(x) = … = F Ik (x) = F I (x) for hver i = 1, …, n,

Hvor F I (x) er fordelingen av observasjonene i ith-blokken . Den samme hypotesen, men mer spesifikk, oppnås hvis den vanlige additivmodellen antas å ha generert x ij i toveisoppsettet . Additivmodellen dekomponerer den totale effekten på måleverdien til en samlet effekt μ, blokk i effekt β i og gruppe j effekt τ j . Hvis fordelingsfunksjonen er betegnet F Ij (x) = F(x − μ − β i − τ j ), kan nullhypotesen om ingen forskjeller mellom k-gruppene angis som

$$ {H}_0:\kern0.5em {\tau}_1=\dots ={\tau}_k, $$

og den generelle alternative hypotesen som

\( {h}_1:\kern0.5em {\tau}_{j_1}\ne {\tau}_{j_2} \) for minst ett (j 1, j 2) par.

Merk at denne representasjonen også hevder at de underliggende fordelingsfunksjonene F I1(x), …, F Ik (x) innenfor blokk i er de samme, dvs. At F I1 (x) = … = F Ik (x) = F I (x), for hver fast i = 1, …, n.

hvis blokker er tilfeldige, vil målinger fra samme tilfeldige blokk være positivt korrelert. For eksempel, hvis et enkelt emne danner en blokk og k observasjoner gjøres om emnet, muligens i randomisert rekkefølge, er observasjonene i blokk avhengig. Slik avhengighet oppstår i en gjentatt tiltak design der n fag er observert og hvert fag er testet under k forhold. Angi fellesfordelingsfunksjonen til observasjoner innen blokk i Ved F I (x 1,…, x k). Da er nullhypotesen om ingen forskjeller mellom k-gruppene hypotesen om utveksling Av de tilfeldige variablene X I1, …, X Ik , formulert som

H 0 : F I (x 1, …, x k ) = f I (x σ(1), …, x σ(k)) for i = 1, …, n,

hvor σ(1), …, σ(k) betegner en permutasjon av 1, …, k. Modellen bak denne hypotesen er at de tilfeldige variablene X ij har en utbyttbar fordeling. Dette er en egnet modell for gjentatte tiltak, der det ikke er hensiktsmessig å anta uavhengighet i en blokk . Vi merker også at denne formuleringen av nullhypotesen og den for faste blokker er konsistente mot det samme alternativet, nemlig negasjonen Av H 0. For en detaljert diskusjon om denne saken, se .

om blokker er faste eller tilfeldige, hvis nullhypotesen er sann, så er alle permutasjonene av 1, …, k like sannsynlige. Det er k ! mulige måter å tildele k rang score til k grupper innenfor hver blokk og alle disse intra-blokk permutasjoner er equiprobable under H 0. Som det samme permutasjonsargumentet gjelder for hver av de n uavhengige blokkene, er det (k !) n like sannsynlig rang konfigurasjoner av rang score r ij i toveis layout . Hver av disse permutasjonene har en sannsynlighet for (k !)- n for å bli realisert. Denne funksjonen brukes til å evaluere nullfordelingen Av rangsummene R j, ved å oppregne alle permutasjonene av toveisoppsettet av ranger.

friedman test statistikk

Under Friedman nullhypotesen er den forventede radsummen av ranger for hver gruppe lik n (k + 1) / 2. Friedman – teststatistikken

$$ {x}_r^2=\frac{12}{nk \ venstre (k+1\høyre)} {\displaystyle \ sum_ {j=1}^k {\venstre \ {{r}_j-n \ venstre (k+1 \ høyre) / 2 \ høyre\}}^2} $$

summerer de kvadrerte avvikene av de observerte rangsummene for hver gruppe, R j, fra den felles forventede verdien for hver gruppe, n (k + 1)/2, under antagelsen om at k-gruppefordelingene er identiske. For små verdier av k og n har den nøyaktige fordelingen Av X 2 r blitt fremmet, for eksempel Av Friedman . En algoritme for å beregne nøyaktig felles fordeling Av Friedman rang summer under null er omtalt i . For det spesielle tilfellet av to parede prøver, se .

Beregning av teststatistikken ved hjelp av nullfordelingen til (k !) n mulige permutasjoner er tidkrevende hvis k er stor. Friedman viste imidlertid at når n har en tendens til uendelig, konvergerer X 2 r i distribusjon til χ 2 df = k − 1, en kjikvadrert tilfeldig variabel med k-1 frihetsgrader. Dette resultatet brukes i den asymptotiske Friedman-testen. Friedman-testen avviser H 0 ved et forhåndsdefinert signifikansnivå α når teststatistikken X 2 r overstiger 100 (1 − α)persentilen av den begrensende kjikvadrerte fordelingen Av X 2 r med k-1 frihetsgrader . Teststatistikken må justeres hvis det er bundet ranger i blokker . Også ulike modifikasjoner Av Friedman-testen har blitt foreslått, for eksempel f-fordelingen som et alternativ til kjikvadratfordelingen , samt generaliseringer, for Eksempel Skillings-Mack-teststatistikken for bruk i nærvær av manglende data. Disse og forskjellige andre justeringer og ikke-parametriske konkurrenter Til Friedman-testen (F.eks. Kruskal-Wallis, Quade, Friedman aligned ranks test) diskuteres ikke her (se).

parvise sammenligningstester og omtrentlig kritisk forskjell

Ofte er forskere ikke bare interessert i å teste den globale hypotesen om likestilling av grupper, men også, eller enda mer, i slutning om likestilling av likestilling av par av grupper. Videre, selv om man hovedsakelig er interessert I H 0 og hypotesen blir avvist, kan det gjennomføres en oppfølgingsanalyse for å fastslå mulige årsaker til avslaget. En slik analyse kan avsløre gruppeforskjeller, men det kan også avsløre at ingen av parene er signifikant forskjellige, til tross for et globalt signifikant testresultat.

for å løse disse problemene er det hensiktsmessig å teste hypoteser om likestilling for par av grupper ved hjelp av samtidige sammenligningstester. Disse multiple sammenligningsprosedyrene kan innebære, i 1 × n (eller mange-en) sammenligninger, testing av k − 1 hypoteser om likestilling av alle ikke-kontrollgrupper mot studiekontrollen eller I N × n (alle par) sammenligninger, vurderer k (k − 1)/2 hypoteser om likestilling mellom alle gruppepar. For begge typer sammenligninger, har store prøve omtrentlige tester blitt utformet. De er avledet for situasjonen der n, antall blokker (dvs. ‘prøvestørrelse’), er stor.

Tabell 2 viser den kritiske forskjellen (CD) omtrentlige tester for 1 × N Og N × N sammenligninger av summer I Friedman-rang, som anbefalt i høyt siterte monografier og papirer og populære lærebøker i ikke-parametrisk statistikk. Den kritiske forskjellen er den minste nødvendige forskjellen i rang summer for et par grupper for å variere på pre-spesifisert alfa nivå av signifikans. DET er å merke seg at CD-statistikken i mange publikasjoner beregnes ved hjelp av forskjellen i rank sum gjennomsnitt, dvs. R j / n, i stedet for rank summer. Resultatene er identiske, siden hver gruppe har n observasjoner, hvis teststatistikkformlene endres på riktig måte.

Tabell 2 anbefalt kritisk forskjell (CD) omtrentlige tester for 1 × n Og N × N sammenligninger Av Friedman rang summer

når nullhypotesen om likfordeling av ranger i n uavhengige rangeringer er sant, og tilstanden til en stor utvalgsstørrelse er met, forskjellene i rang summer er omtrent normalfordelt . La d = R i-r j, med i ≠ j, være rank sum differansen mellom et par grupper i og j. støtten til rank sum differansen d er nedleggelsen . Under nullhypotesen er forventet verdi E (d) = 0 og variansen var (d) = nk (k + 1)/6 . Siden fordelingen av d er symmetrisk rundt E (d) = 0, er skjevheten null, som alle odde ordensmomenter. Kurtosis-koeffisienten, avledet av Whitfield som

$$ \mathrm{Kurt}(d)=3-\frac{3}{5 n}-\frac{12}{5 n k} – \frac{6}{5 n k\venstre( k+1\høyre)}, $$

er mindre enn 3 (dvs.negativt overskudd kurtosis), noe som innebærer at den diskrete rank sum differansefordelingen har tynnere haler enn det normale. Legg imidlertid merke til at kurtosen har en tendens til 3 med økende n, og dermed er en normal tilnærming rimelig. Dette innebærer at d har en asymptotisk n(0, Var( d)) fordeling og at den normale avviket \ (d/\sqrt{\mathrm{var} (d)} \) er asymptotisk N (0, 1).

som det fremgår Av Tabell 2, anbefales den normale omtrentlige testen av ulike forfattere når alle grupper skal sammenlignes mot hverandre parvis. Det er også omtalt Av Demš Som en teststatistikk som skal brukes når alle grupper sammenlignes med en enkelt kontroll. Merk at de normale testprosedyrene kontrollerer familievis Type-I-feilraten ved å dividere det totale nivået av signifikans α med antall utførte sammenligninger(dvs. c 1 i 1 × N Og c 2 i N × n sammenligninger). Det er kraftigere konkurrenter Til Denne Bonferroni-type korreksjon tilgjengelig, slik Som Holm, Hochberg, Og Hommel prosedyrer. Disse metodene for å kontrollere den totale falske positive feilfrekvensen er ikke utarbeidet i dette papiret. For en tutorial i riket av klassifikator sammenligning, se Derrac et al. .

i tillegg til den vanlige normale tilnærmingen har samtidige tester blitt foreslått som utnytter kovariansstrukturen for fordelingen av verdiene av forskjeller i rangbeløp. Mens n rangeringen er gjensidig uavhengig under H 0, rang summer og rang sum forskjeller er avhengige og korrelert så vel. Korrelasjonen mellom rang sum forskjeller avhenger av rang summer involvert. Spesielt, som rapportert Av Miller , når nullhypotesen er sann

$$ \mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_i-{R}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$

$$ \mathrm{c}\mathrm{o}\mathrm{r}\left({r}_i-{r}_j,{R}_l-{r}_m\right)=0\Kern2.25em i\ne j\ne L\ne m. $$

derfor er korrelasjonen null for par av rang sum forskjeller uten gruppe til felles, og 0,5 for par forskjeller med en gruppe til felles for begge forskjellene. Antallet korrelerte par reduseres etter hvert som k øker. For en studie som involverer k-grupper, er andelen korrelerte par lik 4/(k + 1). Derfor når k = 7, for eksempel, er 50% av parene korrelert, men når k = 79 er bare 5% korrelert.

som nevnt i ulike studier (f. eks.), for 1 × n − sammenligninger innebærer denne korrelasjonsstrukturen at når H 0 er sann og n har en tendens til uendelig, faller fordelingen av forskjellene mellom k-1-grupperangens summer og kontrollrang-summen sammen med en asymptotisk (k − 1) -variat normalfordeling med null betyr. Den kritiske differanseverdien kan derfor tilnærmes av teststatistikken merket CD M I Tabell 2, hvor konstanten \ ({m}_{\alpha, df= k-1, \ rho ={\scriptscriptstyle \frac{1}{2}}} \) er det øvre ath-persentilpunktet for fordelingen av maksimumsverdien av(k − 1) like korrelerte n (0,1) tilfeldige variabler med felles korrelasjon \ (\rho ={\scriptscriptstyle \frac{1}{2}}. \) Prosedyren har en asymptotisk familywise feilrate lik α .

for N × N sammenligninger betyr det at kovariansen av rangsumforskjellene er lik kovariansen av forskjellene mellom k uavhengige tilfeldige variabler med null midler og avvik nk(k + 1)/12. Dermed faller den asymptotiske fordelingen av \ (max \ left \ {\left / {R}_i – {R}_j \ right/ \ right\} / \sqrt{nk \ left(k+1 \ right) / 12}\) sammen med fordelingen av området (Q k,∞) av k uavhengige N(0, 1) tilfeldige variabler. Den tilknyttede teststatistikken er CD Q, hvor konstant q α, df = k,∞ er det øvre ath-prosentilpunktet for Den Studentiserte rekkevidden (q) fordeling med (k, ∞) frihetsgrader . Igjen, da testen vurderer den absolutte forskjellen mellom alle k-grupper samtidig, er asymptotisk familievis feilrate lik α .

Friedman-statistikkprøven selv gir opphav til den samtidige testen som er nevnt i den nederste raden I Tabell 2. Nullhypotesen aksepteres hvis forskjellen i rangsummer ikke overskrider den kritiske verdien \ (C{D}_{\chi^2}. \ ) Denne asymptotiske chi-squared tiln rmingen anbefales i noen popul re l rebøker, selv Om Miller har hevdet at sannsynlighetserklæringen ikke er den skarpeste av tester.

Statistisk styrke og alternative tester

Merk AT CD-teststatistikken presentert I Tabell 2 ikke krever informasjon om de innenblokkranger som bestemt i forsøket. Snarere antar de samtidige rangtestene at hver observasjon i hver blokk er like sannsynlig å ha en tilgjengelig rang. Når dette er sant, er mengden (k + 1)(k − 1)/12 variansen av innenfor-blokk rangeringer og nk(k + 1)/6 variansen av forskjellen mellom noen to rang summer . Derfor har nullfordelingen av d i befolkningen null gjennomsnitt og kjent standardavvik. Dette er den nøyaktige grunnen til at de normale omtrentlige testene bruker z-score som teststatistikk. Det er imidlertid viktig å understreke i denne sammenheng at kvadratroten av nk (k + 1) / 6 er standardavviket til d når den totale nullhypotesen er sann, men ikke når den er falsk. Det holder, lik p-verdier, bare i en bestemt modell, dvs. H 0; en modell som kan eller ikke kan være sant. Hvis nullhypotesen er falsk, er mengden nk (k + 1) / 6 vanligvis et overestimat av variansen, og dette fører til at samtidige tester, omtrentlige og nøyaktige, mister strøm.

Det er parvis sammenligning tester For Friedman rang summer tilgjengelig som er beregnet på de observerte rang score i stedet for rang summer. Disse testene, Som Rosenthal-Ferguson-testen og Den populære Conover-testen , bruker t-score som teststatistikk. De parvise t-testene er ofte kraftigere enn de samtidige testene som er omtalt ovenfor, men det er også ulemper. Kort Sagt, Rosenthal-Ferguson-testen bruker de observerte variansene og kovariansen av rangpoengene til hvert enkelt par grupper, for å oppnå en standardfeil på d for testen av signifikans av parvis rangsumdifferansen. Denne standardfeilen er gyldig om nullhypotesen for ingen parvis forskjell er sann eller ikke. Ved siden av den formelle begrensningen av testen at n skal være større enn k + 1, kan variansen av d estimeres dårlig, da det vanligvis er få frihetsgrader tilgjengelig for (co-)variansestimering i Friedman-testapplikasjoner med Liten prøve. Videre er de observerte (co-)variansene forskjellige for hvert par grupper. Følgelig følger det ikke av betydningen av en forskjell av en gitt rang sum A Fra en annen rang sum b, at en tredje rang sum C, mer forskjellig Fra A Enn B er, også ville være betydelig forskjellig. Dette er en ubehagelig egenskap ved testen.Conover-testen estimerer standardavviket til d ved å beregne en samlet standardfeil fra (co-)variansene til de observerte rangpoengene for alle grupper, og dermed øke statistisk kraft. Metoden ligner Fisher ‘ s protected Least Significant Difference (lsd) test, brukt til å rangere score. I denne metoden, ingen justering for flere testing er gjort til p-verdier for å bevare familywise feilraten på nominelt nivå av betydning. Snarere er testen beskyttet i den forstand at ingen parvise sammenligninger utføres med mindre den samlede teststatistikken er signifikant. Som I Fisher protected LSD-prosedyren, Har Conover-testen egenskapen til å inkorporere den observerte F-verdien av den samlede testen i slutningsprosessen. I motsetning Til Fisher protected LSD, som bare bruker den observerte F-verdien på en 0-1 (‘go/no go’) måte, bruker Conover-testen F-verdien på en jevn måte når du beregner LSD. Det vil si at den har den uvanlige egenskapen at jo større den samlede teststatistikken er, desto mindre er den minst signifikante differansegrensen for å erklære en rangsumforskjell for å være signifikant. Duncan – waller-testen har samme karakteristikk, men denne testen fortaler En Bayesiansk tilnærming til flere sammenligninger med Bayes LSD. Da sammenligningstestene i andre trinn er betinget av resultatet av første trinn, har det nominelle alfa-nivået som brukes i parvis Conover-testen, ingen reell probabilistisk betydning i frequentist-forstand. Som nevnt Av Conover Og Iman (: 2), » Siden det totale nivået av andretrinnsprøven vanligvis ikke er kjent, er det ikke lenger en hypotesetest i vanlig forstand, men heller bare en praktisk målestokk for å skille noen behandlinger fra andre.»

Eksakt fordeling og rask p-verdi beregning

vi presenterer en eksakt test for samtidig parvis sammenligning Av Friedman rang summer. Den nøyaktige nullfordelingen bestemmes ved hjelp av sannsynlighetsgenererende funksjonsmetode. Genererende funksjoner gir en elegant måte å oppnå sannsynlighet eller frekvensfordelinger av distribusjonsfri teststatistikk . Anvendelse av genererende funksjonsmetode gir opphav til følgende teorem, hvis bevis er I Tilleggsfil 1.

Teorem 1 For n gjensidig uavhengige heltallsverdier, hver med like sannsynlige rangpoeng fra 1 til k, er den nøyaktige sannsynligheten for å oppnå parvis forskjell d for noen to rangsummer lik$$ P\left( D= d; k, n\right)={\left\{ k\left( k-1\right)\right\}}^ {- n} W\left( D= d; k, n\right), $$

hvor

$$ w\venstre( d= d; k, n\høyre)={\venstre\{ k\venstre( k-1\høyre)\høyre\}}^n{\displaystyle \sum_{h=0}^n\venstre(\begin{array}{c}\hfill n\hfill \ \ hfill\end {array}\høyre)} \\frac{1} {k^h {\venstre(1 – k \høyre)}^n} {\displaystyle\sum_ {i=0}^h {\displaystyle \sum_ {j=0}^h {\venstre(-1 \høyre)}^{\venstre( j – i\høyre)}}\venstre (\begin {array} {c}\hfill h\hfill\end{array}\høyre) \ venstre (\begin {array} {c}\hfill h\hfill j \hfill\end{array}\høyre)\venstre (\begin{array} {c}\hfill j \ hfill \ end{array}\høyre)\venstre (\begin{array} {c}\hfill k\venstre( j – i\høyre) – d+ h-1\hfill\\{}\hfill k \ venstre (j – i \ høyre) – d – h\hfill\end{array}\høyre) $$

er antall distinkt måter en rang sum forskjell på d kan oppstå, med d har støtte på d = .

Tilleggsfil 1 gir også et lukket uttrykk for den nøyaktige p-verdien av d. p-verdien er definert som sannsynligheten for å oppnå et resultat minst like ekstremt som det observerte, gitt at nullhypotesen er sant. Den er oppnådd som summen av sannsynlighetene for alle mulige d, for samme k og n, som er like sannsynlige eller mindre sannsynlige enn den observerte verdien av d under null. Den nøyaktige p-verdien er betegnet P (d ≥ d; k, n), og det beregnes ved hjelp av uttrykket

$$ \begin{array}{l} p\left( D\ge d; k, n\høyre)={\displaystyle \sum_{h=0}^n\venstre(\begynn{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\høyre)}\ \frac{1}{k^h{\venstre(1 – k\høyre)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\venstre(-1\høyre)}^{\venstre( j – i\høyre)}}}\venstre(\begin{array}{c}\hfill h\hfill \ end {array} \ høyre) \venstre (\begin{array} \høyre)\venstre (\begin{array}{c}\hfill k\venstre( j – i\høyre)- d+ h \ hfill \ \{}\hfill k \venstre( j – i\høyre)- d – h\hfill\end{array}\høyre),\\{}\kern27.5em d=- n \ venstre( k-1 \ høyre), \prikker, n\venstre( k-1\høyre).\ end{array} $$

Beregning av den eksakte p-verdien med dette triple summasjonsuttrykket gir en hastighet på størrelsesordener over fullstendig oppregning av alle mulige utfall og deres sannsynligheter ved en brute-force permutasjon tilnærming. For større verdier av n er imidlertid nøyaktig beregning noe tidkrevende, og for å utvide det praktiske området for å utføre nøyaktige tester, er det ønskelig å beregne p-verdien mer effektivt.fordi i praksis flere sammenligningstester er opptatt av absolutte forskjeller, er Det også hensiktsmessig å beregne den kumulative sannsynligheten for den absolutte verdien av forskjeller i rang summer. Siden antall massepunkter i den symmetriske fordelingen av d er et heltall av formen 2n (k − 1) + 1, har fordelingen et oddetall antall sannsynligheter. Dette innebærer at, som sannsynlighetsmassefunksjonen til d er symmetrisk rundt null, kan sannsynlighetsmassen til venstre for d = 0 foldes over, noe som resulterer i en foldet fordeling av ikke-negativ d. Følgelig kan den ensidige p-verdien av ikke-negativ d i området d = 1,…, n (k − 1) oppnås som summen av de to ensidige p-verdiene til den symmetriske fordelingen med støtte d = . Siden dobling av den ensidige p-verdien fører til en p-verdi for d = 0 som overstiger enhet, beregnes p-verdien for d = 0 (bare) som P (D ≥ 0; k, n) = P (D = 0) + P (D ≥ 1), og dette er nøyaktig lik 1.

for å akselerere beregningen, forvandler vi dobbel summering over indeksene i og j i uttrykket For P (D ≥ d; k, n) til en summering over en enkelt indeks, s si, ved Hjelp Av Teorem 2. Beviset er gitt I Tilleggsfil 2.

Teorem 2 for ikke – negative heltall d og k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\venstre(-1\høyre)}^{\venstre( j – i\høyre)}}\venstre(\begin{array} {c}\hfill h\hfill \ \ {} \hfill i\hfill \end{array}\Right)\left(\Begin{Array} {c}\Hfill h\hfill j \ hfill \ end {array} \right)\left (\begin{array} {c}\hfill k\left( j – i\right) – d+ h\Hfill\right)- dh\hfill\end{array} \ right)={\displaystyle\sum_{s=0}^h {\venstre( -1\Høyre)}^s}\venstre (\begin{array} {c}\hfill 2 h\hfill \\{}\hfill h+ s\hfill\end{array}\høyre)\venstre (\begin {array} {c} \ hfill k s- d + h\hfill \ \ {} \ hfill k s-dh\hfill \ end{array} \ høyre). $$

denne reduksjonen til en enkelt sum-funksjon innebærer at p-verdien alternativt kan beregnes ut fra det mye enklere uttrykket

$$ P\left( D\ge\ \left|d\right / ; k, n\høyre)=\venstre\{\beginn{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^n\venstre(\beginn{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\høyre)}\frac{1}{k^h{\venstre(1 – k\høyre)}^n}{\displaystyle \sum_{s=0}^h{\venstre(-1\høyre)}^s\venstre(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\høyre)\venstre(\begin{array}{c}\hfill ks – d+ h\hfill \\ {}\hfill ks – dh\hfill \end{array}\høyre)}, \kern1.8em d=1,\prikker, n\venstre( k – 1\høyre)\hfill \\ {}1\kern22.5em d=0,\kern3em \end{array}\høyre. $ $

og, som vi vil vise, selv for større verdier av n på en beregningsmessig rask måte.

programvareimplementering

selv om de to uttrykkene for den eksakte p-verdien er matematisk korrekte, kan enkel beregning gi beregningsfeil. Selv for moderate verdier av n (20 eller så), kan binomialkoeffisienten som har d i indeksene bli ekstremt stor og lagring av disse tallene for etterfølgende multiplikasjon skaper numerisk overløp på grunn av presisjonsbegrensningen av fast presisjonsaritmetikk. En måte å løse denne feilen på er å bruke en gjentakelsesrelasjon som tilfredsstiller genereringsfunksjonen . Rekursjonene vi undersøkte var alle beregningsmessig dyre å kjøre, men bortsett fra små verdier av n og / eller k. en raskere måte å beregne den nøyaktige p-verdien på riktig måte er å bruke vilkårlig presisjon aritmetisk beregning for å håndtere tall som kan være av vilkårlig stor størrelse, begrenset bare av det tilgjengelige datamaskinens minne.

beregningen av p-verdien av den absolutte rang sum forskjellen d gitt k og n er implementert I R . R-koden, som krever pakken Rmpfr for høy presisjon aritmetikk som skal installeres, er I Tilleggsfil 3. Skriptet merket pexactfrsd beregner den nøyaktige p-verdien P (D ≥ |d|), og gir i tillegg muligheten til å beregne sannsynligheten P (D = / d/) og (kumulativt) antall sammensetninger av d(dvs.W(D = |d|) og W (D ≥ |d|)). R-koden og potensielle fremtidige oppdateringer er også tilgjengelige på http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

For å illustrere derivatene, Tilbyr Tilleggsfil 4 et lite numerisk eksempel (k = 3, n = 2), Og Tilleggsfil 5 tabulerer antall sammensetninger av d for kombinasjoner av k = n = 2,…, 6, for inkludering i OEIS . Som det fremgår Av Tilleggsfil 5, for små verdier av n utfoldet, symmetrisk fordeling av d er bimodal, med moduser på + 1 og-1 . Denne funksjonen forsvinner raskt når n øker, spesielt for k > 2 ved n ≥ 6.

Heretter, med mindre annet er oppgitt, vil vi vurdere verdien av rangsumdifferansen d til å være enten null eller positiv, alt fra 0 til n (k − 1), og dermed slippe absoluttverdisymbolet rundt d.

Ufullstendige rangeringer

fordi n-rangeringene {1,2,…,k} er gjensidig uavhengige, kan vi dele dem i to (eller flere) like eller ulik størrelse deler, merket (D 1; k, n 1) og (D 2; k, n 2), med ∑ 2 t = 1 D t = D, og D t betegner forskjellene i rangsummer av de to delene. Den nøyaktige p-verdien kan oppnås ved å bruke

$$ P\left( D\ge d; k, n\right)= P\left( D\ge d; k,{n}_1,{n}_2\right)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} p\left({D}_1= i; k,{n}_1\høyre)}\ganger p\venstre({d}_2\ge \venstre( d – i\høyre); k,{n}_2\right), $$

hvor – som angitt av summasjonens nedre grense – beregning utføres ved hjelp av p-verdi uttrykket som tillater negativ d. en unik og nyttig egenskap av den nøyaktige metoden, som ikke deles av de omtrentlige metodene som diskuteres, er at det er enkelt å beregne p-verdi sannsynligheter for design med ulik blokkstørrelser k; f.eks. design der n 1 har ranger {1, 2,…, k 1} og n 2 ranger {1, 2,…, k 2}, med k 1 ≠ k 2. Et generelt uttrykk for å beregne den eksakte p-verdien i ufullstendige design med j ulik størrelse deler er

$$ \begin{array}{l} p\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\venstre({k}_1-1\høyre)}{\displaystyle \sum_{i_2=-{n}_2\venstre({k}_2-1\høyre)}^{n_2\venstre({k}_2-1\høyre)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\venstre({k}_{j-1}-1\høyre)}^{n_{j-1} 1}\venstre({k}_{j-1} -1\høyre)}} p\venstre({d}_1={i}_1;{k}_1,{n} _1\høyre) \ganger}} \ \ \ \{} \ kern4.25em \ \{}\kern4em p \ venstre({d}_2={i} _2;{k}_2,{n}_2\høyre)\ganger \cdots \ganger P\venstre({D}_{j-1}={i}_{j-1};{k}_{j-1},{n}_{j-1}\høyre)\ganger P\venstre({D}_j\ge \venstre( d-{i}_1-{i}_2\cdots -{i}_{j-1}\høyre);{k}_j,{n}_j\høyre),\end{array} $$

hvor ∑ j t = 1 d t = d, og et eksempel der n er delt inn i tre deler, hver med en unik verdi på k (k 1, k 2, k 3), er

$$ \begin{array}{l} p\left( d\ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\høyre)={\displaystyle \sum_{i=-{n}_1\venstre({k}_1-1\høyre)}^{n_1\venstre({k}_1-1\høyre)}{\displaystyle \sum_{j=-{n}_2\venstre({k}_2-1\høyre)}^{n_2\venstre({k}_2-1\høyre)} p\venstre({d}_1= i;{k}_1,{n}_1\høyre) \ganger }}\\ {}\\ {}\kern13. 5em P\venstre({D}_2= j; {k}_2, {n}_2 \ høyre) \ ganger P\venstre ({D}_3 \ ge \ venstre (d-i-j \ høyre); {k}_3, {n}_3 \ høyre).\ end{array} $$

selv om sum-funksjonene reduserer beregningen, gjør denne unike funksjonen i eksakt p-verdi beregning en til å gjennomføre gyldige samtidige signifikansprøver når noen innenblokkranger mangler ved design. Slike tester vil være vanskelig å oppnå ved hjelp av en av de store tilnærmingsmetodene. Et empirisk eksempel vil bli gitt i Søknadsseksjonen.

Eksakte og midtre p-verdier

da parvise forskjeller med støtte på d = er symmetrisk fordelt rundt null under H 0, er dobling av ensidig p-verdi det mest naturlige og populære valget for en vanlig eksakt test. En test med eksakt p-verdi garanterer at sannsynligheten for å begå En type-I-feil ikke overstiger det nominelle signifikansnivået. Men Da Type-i-feilfrekvensen alltid er under det nominelle nivået, er en signifikansprøve med nøyaktig p-verdi en konservativ tilnærming til testing, spesielt hvis testen innebærer en svært diskret distribusjon . Mid p-verdien, vanligvis definert som halvparten av sannsynligheten for en observert statistikk pluss sannsynligheten for mer ekstreme verdier, dvs.

$$ {p}_{\mathrm{mid}}\venstre( D\ge d; k, n\høyre)={\scriptscriptstyle \frac{1}{2}} P\venstre( D= d\høyre)+ p\venstre( d> d\høyre), $$

forbedrer dette problemet. Mid-p-verdien er alltid nærmere det nominelle nivået enn den nøyaktige p-verdien, på bekostning av noen ganger å overskride den nominelle størrelsen.

Bundet rangering

midten av p-verdien kan også brukes til å håndtere bundet rangering. Når bånd oppstår i blokker, blir midranken (dvs. gjennomsnittet av rekkene) vanligvis tildelt hver bundet verdi. Hvis, som et resultat av bundet rekker, den observerte rang sum forskjellen er et heltall verdi d pluss 0,5, kan p-verdien oppnås som gjennomsnittet av de nøyaktige p-verdiene til de tilstøtende heltallene d og d + 1, dvs. \ ({\scriptscriptstyle \frac{1}{2}}\venstre, \) og dette er ekvivalent med midten p-verdien. Det er å merke seg at den resulterende sannsynligheten ikke er nøyaktig gyldig. Eksakte p-verdier representerer eksakte frekvenssannsynligheter for visse hendelser, og mid-p-verdier har ingen slik frekvensfortolkning. Det kan argumenteres, derimot, at denne fortolknings ulempe er av liten praktisk bekymring, og at bruk av mid p-verdier er en nesten nøyaktig frekvens tilnærming. For en diskusjon av andre behandlinger av bånd i rang tester, se .