Articles

exacte p-waarden voor paarsgewijze vergelijking van Friedman rangsommen, met toepassing op vergelijking van classifiers

Friedman-gegevens

om de Friedman-test uit te voeren worden de waargenomen gegevens gerangschikt in de vorm van een volledige tweewegopmaak, zoals in Tabel 1A, waarbij de k-rijen de groepen (classifiers) en de n-kolommen de blokken (datasets) vertegenwoordigen.

Table 1 tweerichtingsopmaak voor Friedman-test

de gegevens bestaan uit n blokken met K-waarnemingen binnen elk blok. Waarnemingen in verschillende blokken worden geacht onafhankelijk te zijn. Deze aanname geldt niet voor de k-waarnemingen binnen een blok. De testprocedure blijft geldig ondanks afhankelijkheden binnen het blok . De Friedman test statistiek wordt gedefinieerd op ranked data dus tenzij de oorspronkelijke raw data zijn integer-gewaardeerde rang scores, de raw data zijn rang-getransformeerd. De rangvermeldingen in Tabel 1B worden verkregen door eerst de ruwe gegevens {x ij ; i = 1, …, n, j = 1, …, k} in tabel 1A kolomgewijs van het minst naar het grootst te rangschikken, binnen elk van de N blokken afzonderlijk en onafhankelijk, en vervolgens de gehele getallen 1,…, k toe te wijzen als de rangscores van de k waarnemingen binnen een blok. De rijsom van de rangen voor elke groep j is de rangsom gedefinieerd als R j = ∑ N i = 1 R ij .

nulhypothese

de Algemene nulhypothese van de Friedman-test is dat alle geblokkeerde K-monsters, elk met grootte n, afkomstig zijn van identieke maar niet-gespecificeerde populatiedistributies. Om deze nulhypothese in meer detail te specificeren, laat X ij een willekeurige variabele met onbekende cumulatieve verdelingsfunctie F ij aanduiden, en laat x ij de realisatie van X ij aanduiden .

de nulhypothese kan op twee manieren worden gedefinieerd, afhankelijk van of blokken vast of willekeurig zijn . Als blokken vast zijn, zijn alle K × n-meetwaarden onafhankelijk. Als er K-groepen willekeurig zijn toegewezen om K ongerelateerd x ij te houden binnen elk blok, zoals in een gerandomiseerd volledig blokontwerp, dan kan de nulhypothese dat de k-groepen identieke distributies hebben, worden geformuleerd als

H 0 : F i1(x) = … = F ik (x) = F i (x) voor elke i = 1,…, n,

waarbij F i (x) de verdeling van de waarnemingen in het IDE blok is . Dezelfde hypothese, maar meer specifiek, wordt verkregen als wordt aangenomen dat het gebruikelijke additieve model x ij in de twee-weg lay-out heeft gegenereerd . Het additieve model ontleedt het totale effect op de meetwaarde in een totaal effect μ, blok i effect β i , en Groep j effect τ j . Als de verdelingsfunctie wordt aangeduid F ij (x) = F(x − μ − β i − τ j ), kan de nulhypothese van geen verschillen tussen de k-groepen worden aangegeven als

$$ {h}_0:\kern0.5em {\tau}_1=\dots ={\Tau}_k, $$

en de Algemene alternatieve hypothese als

\( {h}_1:\kern0.5EM {\Tau}_{j_1}\ne {\tau}_{j_2} \) voor ten minste één (J 1, j 2) paar.

merk op dat deze representatie ook beweert dat de onderliggende distributiefuncties F i1 (x),…, f ik (x) binnen blok i hetzelfde zijn, dat wil zeggen dat F i1(x) = … = F ik (x) = F i (x), voor elke vaste i = 1, …, n.

als blokken willekeurig zijn, zullen metingen van hetzelfde willekeurige blok positief gecorreleerd zijn. Bijvoorbeeld, als een enkel subject een blok vormt en er k-observaties over het subject worden gedaan, mogelijk in willekeurige volgorde, zijn de binnen-blok observaties afhankelijk. Een dergelijke afhankelijkheid treedt op in een ontwerp van herhaalde metingen waarbij n proefpersonen worden geobserveerd en elke proefpersoon wordt getest onder k-omstandigheden. Geeft de gezamenlijke verdelingsfunctie van waarnemingen binnen blok i aan door F i (x 1, …, x k ). Dan is de nulhypothese van geen verschillen tussen de k-groepen de hypothese van uitwisselbaarheid van de willekeurige variabelen X i1,…, X ik, geformuleerd als

H 0: F i (x 1, …, x k ) = F i(x σ(1), …, x σ(k)) voor i = 1, …, n,

waarbij σ(1), …, σ (k) een permutatie van 1, …, k aangeeft. Het model dat aan deze hypothese ten grondslag ligt is dat de willekeurige variabelen x ij een uitwisselbare verdeling hebben. Dit is een geschikt model voor herhaalde maatregelen, wanneer het niet passend is om onafhankelijkheid binnen een blok te veronderstellen . We merken ook op dat deze formulering van de nulhypothese en die voor vaste blokken consistent zijn tegen hetzelfde alternatief, namelijk de negatie van H 0. Voor een gedetailleerde bespreking van deze kwestie, zie .

of blokken vast of willekeurig zijn, als de nulhypothese waar is, dan zijn alle permutaties van 1, …, k even waarschijnlijk. Er zijn k ! mogelijke manieren om K-rangscores toe te wijzen aan de k-groepen binnen elk blok en al deze intra-blok permutaties zijn equiprobable onder H 0. Aangezien hetzelfde permutatieargument van toepassing is op elk van de N onafhankelijke blokken, zijn er (k !) n even waarschijnlijke rangconfiguraties van de rangscores r ij in de twee-weg lay-out . Elk van deze permutaties heeft een waarschijnlijkheid van (k !)- n van gerealiseerd worden. Deze functie wordt gebruikt om de null verdeling van de ranksommen R j te evalueren , door alle permutaties van de tweeweg lay-out van rangen op te sommen.

Friedman teststatistiek

onder de nulhypothese van Friedman is de verwachte rijsom van rangorde voor elke groep gelijk aan n(k + 1) / 2. De Friedman test statistiek

$$ {X}_r^2=\frac{12}{nk\left( k+1\right)}{\displaystyle \sum_{j=1}^k{\left\{{R}_j – n\left( k+1\right)/2\right\}}^2} $$

de som van de kwadratische afwijkingen van de waargenomen rang bedragen voor elke groep, R j , van de gemeenschappelijke verwachte waarde voor elke groep, n(k + 1)/2 onder de veronderstelling dat de k-groep verdelingen zijn gelijk. Voor kleine waarden van k en n is de exacte verdeling van X 2 r ingediend, bijvoorbeeld door Friedman . Een algoritme voor het berekenen van de exacte gezamenlijke verdeling van de Friedman rangsommen onder de null wordt besproken in . Voor het bijzondere geval van twee gepaarde monsters, zie .

berekening van de teststatistiek met behulp van de nulverdeling van de (k !) N mogelijke permutaties zijn tijdrovend als k groot is. Friedman toonde echter aan dat als n naar oneindigheid neigt, X 2 r in verdeling convergeert naar χ 2 df = k-1, een willekeurige Chi-kwadraatvariabele met K − 1 vrijheidsgraden. Dit resultaat wordt gebruikt in de asymptotische Friedman-test. De Friedman-test wijst H 0 af op een vooraf gespecificeerd significantieniveau α wanneer de teststatistiek X 2 r het 100(1 − α)th percentiel van de beperkende chi-kwadraatverdeling van X 2 r met K − 1 vrijheidsgraden overschrijdt . De teststatistiek moet worden aangepast als er verbonden rangen binnen blokken zijn . Ook zijn verschillende wijzigingen van de Friedman-test voorgesteld, bijvoorbeeld de F-distributie als alternatief voor de chi-kwadraatdistributie , evenals generalisaties, zoals de Skillings-Mack-teststatistiek voor gebruik in de aanwezigheid van ontbrekende gegevens. Deze en diverse andere aanpassingen en niet-parametrische concurrenten aan de Friedman-test (bijvoorbeeld Kruskal-Wallis, Quade, Friedman aligned rangs test) worden hier niet besproken (zie ).

paarsgewijze vergelijkingstests en benaderende kritische verschillen

vaak zijn onderzoekers niet alleen geïnteresseerd in het testen van de Globale hypothese van de gelijkheid van groepen, maar ook, of nog meer, in gevolgtrekking op de gelijkheid van gelijkheid van groepen. Verder, zelfs als men vooral geïnteresseerd is in H 0 en de hypothese wordt afgewezen, kan een follow-up analyse worden uitgevoerd om mogelijke redenen voor de afwijzing te bepalen. Een dergelijke analyse kan groepsverschillen onthullen, maar het kan ook onthullen dat geen van de paren significant verschillend is, ondanks een wereldwijd significant testresultaat.

om deze problemen aan te pakken is het raadzaam om hypothesen van gelijkheid voor paren van groepen te testen met behulp van simultane vergelijkingstesten. Deze meervoudige vergelijkingsprocedures kunnen betrekking hebben op 1 × N (of vele-één) vergelijkingen, het testen van K − 1 hypothesen van gelijkheid van alle niet-controlegroepen tegen de onderzoekscontrole of, in n × n (alle-paren) vergelijkingen, het overwegen van k(k − 1)/2 hypothesen van gelijkheid tussen alle paren van groepen. Voor beide soorten vergelijkingen zijn benaderende proeven met grote steekproeven ontworpen. Zij worden afgeleid voor de situatie waarin n, het aantal blokken (d.w.z., “steekproefgrootte”), groot is.

Tabel 2 toont de kritische verschil (CD) benaderende tests voor 1 × n en N × N vergelijkingen van Friedman rangsommen, zoals aanbevolen in hoog geciteerde monografieën en papers en populaire handboeken over niet-parametrische statistieken. Het kritieke verschil is het minimaal vereiste verschil in rangsommen voor een paar groepen om te verschillen op het vooraf gespecificeerde alfaniveau van significantie. Er zij op gewezen dat in veel publikaties de CD-statistiek wordt berekend aan de hand van het verschil in rangsumgemiddelden, d.w.z. R j /n, in plaats van rangsummen. De resultaten zijn identiek, aangezien elke groep n-waarnemingen heeft, als de statistische formules voor de test op de juiste wijze worden gewijzigd.

Table 2 Recommended critical difference (CD) approximate tests for 1 × N and N × N comparations of Friedman rank sums

wanneer de nulhypothese van equidistributie van rangen in n independent rankings waar is, en aan de voorwaarde van een grote steekproefgrootte is voldaan, zijn de verschillen in rang bedragen worden ongeveer normaal verdeeld . Zij d = R i-R j, met i ≠ j, het verschil in rangsom tussen een paar groepen i en j. de ondersteuning van het verschil in rangsom D is de afsluiting . Onder de nulhypothese, de verwachte waarde E (d) = 0 en de variantie Var(d) = nk(k + 1)/6 . Omdat de verdeling van d symmetrisch is rond E ( d) = 0, is de scheefheid nul, net als alle oneven orde momenten. De kurtosecoëfficiënt, afgeleid door Whitfield als

$$ \mathrm{Kurt}(d)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\left( k+1\right)}, $$

is minder dan 3 (d.w.z. negatieve overmaat kurtose), wat impliceert dat de discrete verdeling van de rangsumverschil dunnere staarten heeft dan de normale. Merk echter op dat de kurtose neigt naar 3 met toenemende n, dus een normale benadering is redelijk. Dit impliceert dat d Een asymptotische n(0, Var(d)) verdeling heeft en dat de normale afwijking \( d/\sqrt{\mathrm{Var}(d)} \) asymptotisch N(0, 1) is.

zoals blijkt uit Tabel 2, wordt de normale test bij benadering aanbevolen door verschillende auteurs wanneer alle groepen paarsgewijs met elkaar moeten worden vergeleken. Het wordt ook door Demšar besproken als een teststatistiek die moet worden gebruikt wanneer alle groepen met één enkele controle worden vergeleken. Merk op dat de normale testprocedures het familywise type I-foutenpercentage regelen door het totale significantieniveau α te delen door het aantal uitgevoerde vergelijkingen (d.w.z. c 1 in 1 × N en c 2 in n × n-vergelijkingen). Er zijn meer krachtige concurrenten om deze Bonferroni-type correctie beschikbaar, zoals de Holm, Hochberg, en Hommel procedures. Deze methoden om het totale foutpositieve foutenpercentage te controleren worden in dit document niet uitgewerkt. Voor een tutorial op het gebied van classifier vergelijking, zie Derrac et al. .

naast de gewone normale benadering zijn simultane tests voorgesteld die gebruik maken van de covariantiestructuur van de verdeling van de waarden van verschillen in rangsommen. Terwijl de n-ranglijsten onder H 0 onderling onafhankelijk zijn, zijn de rangsommen en de rangsumverschillen ook afhankelijk en gecorreleerd. De correlatie tussen de rangsumverschillen hangt af van de betrokken rangsummen. Specifiek, zoals gerapporteerd door Miller , als de nulhypothese waar is

$$ \mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_i-{R}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$
$$ \mathrm{C}\mathrm{o}\mathrm{r}\left({R}_i-{R}_j,{R}_l-{R}_m\right)=0\kern2.25em i\ne j\ne l\ne m. $$

Daarom is de correlatie nul voor paren van rank sum verschillen met geen enkele groep in het algemeen, en 0,5 voor paren van verschillen met de ene groep in de gemeenschappelijke verschillen. Het aantal gecorreleerde paren neemt af naarmate k toeneemt. Voor een studie waarbij k-groepen betrokken zijn, is het aandeel van gecorreleerde paren gelijk aan 4/(k + 1) . Dus als k = 7 bijvoorbeeld 50% van de paren zijn gecorreleerd, maar als k = 79 slechts 5% zijn gecorreleerd.

zoals opgemerkt in diverse studies (bijvoorbeeld), impliceert deze correlatiestructuur voor 1 × N vergelijkingen dat, wanneer H 0 Waar is en n oneindig neigt, de verdeling van de verschillen tussen de rangsommen van de K − 1 − groep en de rangsum van de controlegroep samenvalt met een asymptotische (K-1) – variate normale verdeling met nulgemiddelden. De kritische verschilwaarde kan daarom worden benaderd door de teststatistiek met CD M in Tabel 2, waarbij de constante \ ({m}_{\alpha, df = k-1, \ rho = {\scriptscriptstyle \ frac{1}{2}}} \) is het bovenste ath-percentielpunt voor de verdeling van de maximumwaarde van (k − 1) even gecorreleerde n(0,1) willekeurige variabelen met gemeenschappelijke correlatie \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) De procedure heeft een asymptotische familywise foutenpercentage gelijk aan α .

voor N × N vergelijkingen betekent dit dat de covariantie van de ranksumverschillen gelijk is aan de covariantie van de verschillen tussen k onafhankelijke willekeurige variabelen met nul gemiddelden en varianties nk(k + 1)/12. De asymptotische verdeling van \ (max\left\{\left / {R}_i – {R}_j \ right / \ right\}/\sqrt{nk\left( k+1\right) / 12} \) valt dus samen met de verdeling van het bereik (Q k,∞) van K onafhankelijke n(0, 1) willekeurige variabelen. De bijbehorende teststatistiek is CD Q, waarbij de constante q α, df = k,∞ het bovenste ath-percentielpunt is van de verdeling van het Studiebereik (q) met (k,∞) vrijheidsgraden . Nogmaals, aangezien de test het absolute verschil van alle k-groepen tegelijkertijd in aanmerking neemt, is het asymptotische familywise foutenpercentage gelijk aan α .

De Friedman – statistische test zelf geeft aanleiding tot de gelijktijdige test die in de onderste rij van Tabel 2 wordt vermeld. De nulhypothese wordt geaccepteerd als het verschil in rangsommen de kritische waarde \( C{D}_{\chi^2} niet overschrijdt. \ ) Deze asymptotische chi-kwadraat benadering wordt aanbevolen in sommige populaire leerboeken, hoewel Miller heeft betoogd dat de waarschijnlijkheidsverklaring niet de scherpste test is.

statistisch vermogen en alternatieve tests

merk op dat Voor de CD-teststatistieken in Tabel 2 Geen informatie nodig is over de in het experiment bepaalde binnenblokwaarden. In plaats daarvan gaan de simultane rangtests er allemaal van uit dat binnen elk blok elke waarneming even waarschijnlijk een beschikbare rang heeft. Wanneer dit waar is, is de hoeveelheid (k + 1)(k − 1)/12 de variantie van de binnen-blok rankings en nk(k + 1)/6 de variantie van het verschil tussen twee rangsommen . Vandaar dat de nulverdeling van d in de populatie nul gemiddelde en bekende standaardafwijking heeft. Dit is precies de reden waarom de normale approximatieve tests de z-score als teststatistiek gebruiken. Het is echter belangrijk om in deze context te benadrukken dat de vierkantswortel van nk(k + 1)/6 de standaardafwijking van d is wanneer de totale nulhypothese waar is, maar niet wanneer deze onwaar is. Het geldt, net als p-waarden, alleen in een bepaald model, dat wil zeggen H 0; een model dat al dan niet waar kan zijn. Als de nulhypothese onwaar is, is de hoeveelheid nk(k + 1)/6 typisch een overschatting van de variantie, en dit veroorzaakt gelijktijdige tests, benaderend en exact, om macht te verliezen.

Er zijn paarsgewijze vergelijkingstesten beschikbaar voor Friedman rangsommen die berekend worden op de waargenomen rangscores in plaats van op de rangsommen. Deze tests , zoals de Rosenthal-Ferguson-test en de populaire Conover-test, gebruiken de t-score als teststatistiek. De paarsgewijze t-tests zijn vaak krachtiger dan de hierboven besproken simultane tests, maar er zijn ook nadelen. Kortom, de Rosenthal-Ferguson test maakt gebruik van de waargenomen varianties en covariantie van de rangscores van elk individueel paar groepen, om een standaardfout van d te verkrijgen voor de significantietest van het paarsgewijs rangverschil. Deze standaardfout is geldig of de nulhypothese van geen paarsgewijs verschil waar is of niet. Echter, naast de formele beperking van de test dat n groter moet zijn dan k + 1, kan de variantie van d slecht worden geschat, omdat er doorgaans weinig vrijheidsgraden beschikbaar zijn voor (co-)variantieschatting in kleine Friedman-testtoepassingen. Bovendien zijn de waargenomen (co-)varianties verschillend voor elk paar groepen. Bijgevolg volgt uit de Betekenis van een verschil van een bepaalde rangsom a van een andere rangsom b niet, dat een derde rangsom C, die meer verschilt van A dan B, ook significant verschillend zou zijn. Dit is een onaangename eigenschap van de test.

De Conover-test schat de standaardafwijking van d door een gepoolde standaardfout te berekenen op basis van de (co-)varianties van de waargenomen rangscores van alle groepen, waardoor het statistische vermogen toeneemt. De methode is vergelijkbaar met Fisher ‘ s protected Least Significant Difference (LSD) test, toegepast op rank scores. In deze methode worden de p-waarden voor meervoudige tests niet aangepast om het familywise foutenpercentage op het nominale significantieniveau te behouden. In plaats daarvan wordt de test beschermd in die zin dat er geen paarsgewijze vergelijkingen worden uitgevoerd, tenzij de Algemene teststatistiek significant is. Net als bij de door Fisher beschermde LSD-procedure heeft de Conover-test de eigenschap dat de waargenomen F-waarde van de totale test wordt opgenomen in het inferentiële besluitvormingsproces. In tegenstelling tot de door Fisher beschermde LSD, die de waargenomen F-waarde alleen op een 0-1 (“go/no go”) manier gebruikt, gebruikt de Conover-test de F-waarde op een soepele manier bij de berekening van de LSD. Dat wil zeggen, het heeft het ongewone kenmerk dat hoe groter de totale teststatistiek, hoe kleiner de minst significante verschil drempel is voor het verklaren van een rangsumverschil significant. De Duncan-Waller test heeft dezelfde eigenschap, maar deze test pleit voor een Bayesiaanse benadering van meerdere vergelijkingen met Bayes LSD. Aangezien de vergelijkingsproeven in de tweede fase afhankelijk zijn van het resultaat van de eerste fase, heeft het nominale alfaniveau dat in de paarsgewijze Conoverproef wordt gebruikt geen werkelijke probabilistische betekenis in de frequentistische zin. Zoals opgemerkt door Conover en Iman (: 2), ” aangezien het niveau van de tweede fase meestal niet bekend is, is het niet langer een hypothese test in de gebruikelijke zin, maar slechts een handige maatstaf voor het scheiden van sommige behandelingen van andere.”

exacte verdeling en snelle p-waardeberekening

We presenteren een exacte test voor gelijktijdige paarsgewijze vergelijking van Friedman rangsommen. De exacte null-verdeling wordt bepaald met behulp van de waarschijnlijkheidsgenererende functiemethode. Genererende functies bieden een elegante manier om kans-of frequentiedistributies van distributievrije teststatistieken te verkrijgen . Toepassing van de methode van de genererende functie geeft aanleiding tot de volgende stelling, waarvan het bewijs in aanvullend dossier 1.

stelling 1 Voor n wederzijds onafhankelijke ranglijsten, elk met even waarschijnlijke rangscores variërend van 1 tot k, de exacte kans om paarsgewijs verschil te verkrijgen d voor elke twee rangsommen is gelijk aan

$$ P\left( D= d; k, n\right)={\left\{ k\left( k-1\right)\right\}}^ {- n} W\left( D= d; k, N\right), $$

waarbij

$$ w\left( D= D; k, n\right)={\left\{ k\left( k-1\right)\right\}}^n{\displaystyle \sum_{i=0}^n\left(\begin{array}{c}\hfill\n \ hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k)\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h-1\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right) $$

is het nummer van verschillende manieren een rank Som verschil van d kan ontstaan, met d die ondersteuning op d =.

aanvullend bestand 1 biedt ook een gesloten – vormuitdrukking voor de exacte p-waarde van d. de p-waarde wordt gedefinieerd als de kans op het verkrijgen van een resultaat dat minstens zo extreem is als het waargenomen resultaat, aangezien de nulhypothese waar is. Het wordt verkregen als de som van de waarschijnlijkheden van alle mogelijke d, voor dezelfde k en n, die even waarschijnlijk of minder waarschijnlijk zijn dan de waargenomen waarde van d onder de nul. De exacte p-waarde wordt aangeduid P (D ≥ d; k, n), en het wordt berekend met behulp van de expressie

$$ \ begin{array}{l} P \ left (D \ ge d; k, n\right)={\displaystyle \sum_{i=0}^n\left(\begin{array}{c}\hfill\n \ hfill \\ {}\hfill h\hfill \end{array}\right)}\ \frac{1}{k^h{\left(1 – k)\right)}^n}{\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right),\\ {}\kern27.5em d=- n\left( k-1\right),\dots, n\left( k-1\right).\ end{array} $$

Het berekenen van de exacte p-waarde met deze drievoudige somuitdrukking geeft een snelheid-up van ordes van grootte over volledige opsomming van alle mogelijke uitkomsten en hun waarschijnlijkheden door een brute-force permutatie benadering. Voor grotere waarden van n is de exacte berekening echter wat tijdrovend en om het praktische bereik voor het uitvoeren van exacte tests uit te breiden, is het wenselijk de p-waarde efficiënter te berekenen.

ook omdat in de praktijk meerdere vergelijkingstests betrekking hebben op absolute verschillen, is het zinvol om de cumulatieve waarschijnlijkheid van de absolute waarde van verschillen in rangsommen te berekenen. Aangezien het aantal massapunten van de symmetrische verdeling van d een geheel getal is van de vorm 2n (k − 1) + 1, heeft de verdeling een oneven aantal waarschijnlijkheden. Dit houdt in dat, aangezien de waarschijnlijkheidsmassa-functie van d symmetrisch rond nul is, de waarschijnlijkheidsmassa links van d = 0 kan worden gevouwen, wat resulteert in een gevouwen verdeling van niet-negatieve d. Bijgevolg kan de eenzijdige p-waarde van niet − negatieve d in het bereik d = 1, …, n(k − 1) worden verkregen als de som van de twee eenzijdige p-waarden van de symmetrische verdeling met steun d = . Aangezien het verdubbelen van de eenzijdige p-waarde leidt tot een p-waarde voor d = 0 die de eenheid overschrijdt, wordt de p-waarde voor D = 0 (alleen) berekend als P(D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1), en dit is precies gelijk aan 1.

om de berekening te versnellen, transformeren we de dubbele sommatie over de indices i en j in de uitdrukking voor P(D ≥ d; k, n) naar een sommatie over een enkele index, zeg maar, met behulp van Stelling 2. Het bewijs wordt gegeven in aanvullend dossier 2.

Stelling 2 Voor niet-negatieve gehele getallen d en k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – i\right)}}}\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill i\hfill \end{array}\right)\left(\begin{array}{c}\hfill h\hfill \\ {}\hfill j\hfill \end{array}\right)\left(\begin{array}{c}\hfill k\left( j – i\right)- d+ h\hfill \\ {}\hfill k\left( j – i\right)- d – h\hfill \end{array}\right)={\displaystyle \sum_{n=0}^h{\left(-1\right)}^n}\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill k s- d+ h\hfill \ \ {} \ hfill k s-d-h \ hfill \ end{array} \ right). $$

deze reductie tot een singly-sum functie impliceert dat de p-waarde als alternatief kan worden berekend uit de veel eenvoudiger expressie

$$ p\left( D\ge \ \ left / D \ right|; k, n\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{i=0}^n\left(\begin{array}{c}\hfill\n \ hfill \\ {}\hfill h\hfill \end{array}\right)}\frac{1}{k^h{\left(1 – k)\right)}^n}{\displaystyle \sum_{n=0}^h{\left(-1\right)}^s\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ s\hfill \end{array}\right)\left(\begin{array}{c}\hfill ks – d+ h\hfill \\ {}\hfill ks – d – h\hfill \end{array}\right)}, \kern1.8em d=1,\dots, n\left( k-1\right)\hfill \\ {}1\kern22.5em d=0,\kern3em \end{array}\right. $$

en, zoals we zullen laten zien, zelfs voor grotere waarden van n in een rekenkundig snelle manier.

Softwareimplementatie

hoewel de twee uitdrukkingen voor de exacte p-waarde wiskundig correct zijn, kan eenvoudige berekening rekenfouten veroorzaken. Zelfs voor gematigde waarden van n (20 of Zo), kan de binomiale coëfficiënt die d in de indices heeft extreem groot worden en het opslaan van deze getallen voor daaropvolgende vermenigvuldiging creëert numerieke overloop toe te schrijven aan de precisiebeperking van vaste-precisie rekenkunde. Een manier om deze fout aan te pakken is het gebruik van een herhalingsrelatie die voldoet aan de genererende functie . De recursies die we onderzocht waren allemaal computationeel duur om uit te voeren, echter, met uitzondering van kleine waarden van n en/of k. een snellere manier om de exacte p-waarde correct te berekenen is het gebruik van willekeurige-precisie rekenkundige berekening om te gaan met getallen die van willekeurige grote omvang kunnen zijn, beperkt alleen door het beschikbare computergeheugen.

de berekening van de p-waarde van het absolute ranksumverschil d gegeven k en n wordt uitgevoerd in R . De R-code, die vereist dat het pakket Rmpfr voor hoge precisie rekenkunde worden geïnstalleerd, is in aanvullend bestand 3. Het script met het label pexactfrsd berekent de exacte p-waarde P (D ≥ / d|), en biedt bovendien de mogelijkheid om de waarschijnlijkheid P(D = | d|) en het (cumulatieve) aantal samenstellingen van d (d.w.z., W(D = | d|) en W(D ≥ |D/)) te berekenen. De R-code en mogelijke toekomstige updates zijn ook beschikbaar onder http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

om de afleidingen te illustreren, biedt aanvullend bestand 4 een klein numeriek voorbeeld (k = 3, n = 2), en aanvullend bestand 5 geeft het aantal samenstellingen van d voor combinaties van k = n = 2,…, 6, voor opname in de OEI ‘ s . Zoals te zien is in aanvullend bestand 5, is voor kleine waarden van n de uitgevouwen, symmetrische verdeling van d bimodaal, met modi op + 1 en-1 . Deze eigenschap verdwijnt snel naarmate n toeneemt, met name voor k > 2 bij n ≥ 6.

hierna zullen we, tenzij anders vermeld, de waarde van ranksumverschil d beschouwen als nul of positief, variërend van 0 tot n (k-1), en dus het absolute waardesymbool Rond d laten vallen.

onvolledige rankings

omdat de n rankings {1,2,…, k} onderling onafhankelijk zijn, kunnen we ze verdelen in twee (of meer) gelijke of ongelijke delen, gelabeld (D 1; k, n 1) en (D 2; k, n 2), met ∑ 2 t = 1 D t = D, en D t die de verschillen in rangsommen van de twee delen aangeeft. De exacte p-waarde kan worden verkregen met

$$ p\left( D\ge d; k, n\right)= p\left( D\ge d; k,{n}_1,{n}_2\right)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} P\left({D}_1= i; k,{n}_1\right)}\times p\left({d}_2\ge \left( d – i\right); k,{n}_2\right), $$

waarbij – zoals aangegeven door de ondergrens van de som – berekening wordt uitgevoerd met behulp van de p-waarde-expressie die negatieve d mogelijk maakt. een unieke en nuttige eigenschap van de exacte methode, die niet wordt gedeeld door de geschatte methoden die worden besproken, is dat het gemakkelijk is om p-waarde waarschijnlijkheden te berekenen voor ontwerpen met ongelijke blokgroottes k; bijvoorbeeld ontwerpen waarin n 1 rangen {1, 2,…, k 1}, en n 2 rangen {1, 2,…, k 2 heeft}, met k 1 ≠ k 2. Een algemene uitdrukking voor de berekening van de exacte p-waarde in onvolledige designs met j ongelijke grote delen is

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{i_2=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)}\cdots {\displaystyle \sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\right)}^{n_{j-1}\left({k}_{j-1}-1\right)}} P\left({D}_1={i}_1;{k}_1,{n}_1\right) \times }}\ \\ {}\kern4.25em \\ {}\kern4em P\left({D}_2={i}_2;{k}_2,{n}_2\right)\times \cdots \times P\left({D}_{j-1}={i}_{j-1};{k}_{j-1},{n}_{j-1}\right)\times P\left({D}_j\ge \left( d-{i}_1-{i}_2\cdots -{i}_{j-1}\right);{k}_j,{n}_j\right),\end{array} $$

waar ∑ j t = 1 D t = D, en een voorbeeld waarin n is onderverdeeld in drie delen, elk met een unieke waarde k (k 1, k 2, k 3) is

$$ \begin{array}{l} P\left( D\ge d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\right)={\displaystyle \sum_{i=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{j=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)} P\left({D}_1= i;{k}_1,{n}_1\right) \times }}\\ {}\\ {}\kern13.5em P\left({D}_2= j;{k}_2,{n}_2\right)\times P\left({D}_3\ge \left( d – i – j\right);{k}_3,{n}_3\right).\ end{array} $$

hoewel de optelfuncties de berekening vertragen, stelt deze unieke eigenschap van exacte p-waardeberekening iemand in staat om geldige simultane significantietesten uit te voeren wanneer sommige binnen-blok rijen ontbreken door het ontwerp. Dergelijke tests zouden moeilijk te bereiken zijn gebruikend één van de methodes van de grote steekproefbenadering. Een empirisch voorbeeld zal worden gegeven in de Toepassingssectie.

exacte en middelste p-waarden

omdat de verschillen met ondersteuning op d = symmetrisch verdeeld zijn rond nul onder H 0, is het verdubbelen van de eenzijdige p-waarde de meest natuurlijke en populaire keuze voor een gewone exacte test. Een test waarbij de exacte p-waarde wordt gebruikt, garandeert dat de kans op het maken van een type-I-fout niet groter is dan het nominale significantieniveau. Aangezien het type I-foutenpercentage echter altijd onder het nominale niveau ligt, is een significantietest met exacte p-waarde een conservatieve benadering van het testen, vooral als de test een zeer discrete verdeling omvat . De mid p-waarde, gewoonlijk gedefinieerd als de helft van de kans op een waargenomen statistiek plus de kans op extremere waarden, d.w.z.

$$ {p}_{\mathrm{mid}}\left( D\ge d; k, n\right)={\scriptscriptstyle \frac{1}{2}} P\left( D= D\right)+ P\left( D> d\right), $$

verbetert dit probleem. De middelste p-waarde ligt altijd dichter bij het nominale niveau dan de exacte p-waarde, ten koste van het af en toe overschrijden van de nominale grootte.

gekoppelde rankings

de middelste p-waarde kan ook worden gebruikt om gekoppelde rankings af te handelen. Wanneer ties optreden binnen blokken, de midrank (dat wil zeggen, Het gemiddelde van de rangen) wordt gewoonlijk toegewezen aan elke gebonden waarde. Als, als gevolg van gekoppelde rijen, het waargenomen ranksumverschil een gehele waarde d plus 0,5 is, kan de p-waarde worden verkregen als het gemiddelde van de exacte p-waarden van de aangrenzende gehele getallen d en d + 1, d.w.z. \( {\scriptscriptstyle \frac{1}{2}}\left,\) en dit is gelijk aan de Midden-p-waarde. Het is om op te merken dat de resulterende waarschijnlijkheid niet precies geldig is. Exacte p-waarden vertegenwoordigen exacte frequentiewaarschijnlijkheden van bepaalde gebeurtenissen, en mid p-waarden hebben een dergelijke frequentieinterpretatie niet. Er kan echter worden betoogd dat dit interpretatienadeel in de praktijk weinig aanleiding geeft tot bezorgdheid en dat het gebruik van mid p-waarden een bijna exacte frequentiebenadering is. Voor een bespreking van andere behandelingen van banden in rang tests, zie .