Articles

dokładne wartości p dla parowego porównania Sum rangi Friedmana, z zastosowaniem do porównywania klasyfikatorów

dane Friedmana

w celu wykonania testu Friedmana obserwowane dane są ułożone w formie kompletnego układu dwukierunkowego, jak w tabeli 1A, gdzie wiersze k reprezentują grupy (klasyfikatory), a kolumny n reprezentują bloki (zbiory danych).

Tabela 1 Układ dwukierunkowy dla testu Friedmana

dane składają się z N bloków z obserwacjami k w każdym bloku. Zakłada się, że obserwacje w różnych blokach są niezależne. Założenie to nie dotyczy obserwacji k w obrębie bloku. Procedura testowa pozostaje ważna pomimo zależności między blokami . Statystyka testu Friedmana jest zdefiniowana na danych rankingowych, więc o ile oryginalne dane surowe nie są wartościami całkowitymi, dane surowe są przekształcane w rangi. Pozycje rang w tabeli 1B uzyskuje się najpierw przez uporządkowanie surowych danych {x ij; i = 1,…, n, j = 1,…, k} w tabeli 1A w kolumnie od najmniejszego do największego, w obrębie każdego z N bloków oddzielnie i niezależnie, a następnie przypisanie liczb całkowitych 1,…, k jako wyników Rang obserwacji k w obrębie bloku. Suma rzędów rang dla dowolnej grupy j jest sumą Rang zdefiniowaną jako R j = ∑ N i = 1 r ij .

hipoteza zerowa

ogólna hipoteza zerowa testu Friedmana polega na tym, że wszystkie zablokowane próbki K, każda o wielkości n, pochodzą z identycznych, ale nieokreślonych rozkładów populacji. Aby określić tę hipotezę zerową bardziej szczegółowo, niech X ij oznacza zmienną losową z nieznaną funkcją rozkładu kumulatywnego F IJ, i niech x IJ oznacza realizację x ij .

hipoteza zerowa może być zdefiniowana na dwa sposoby, w zależności od tego, czy bloki są stałe czy losowe . Jeśli bloki są stałe, to wszystkie wartości pomiaru k × n są niezależne. Jeśli istnieją grupy K losowo przypisane do posiadania K niepowiązanych X ij w każdym bloku, jak w randomizowanej konstrukcji pełnego bloku, to hipoteza zerowa, że grupy K mają identyczne rozkłady mogą być sformułowane jako

h 0 : F I1(x) = … = F ik (x) = F I (x) dla każdego i = 1,…, n,

gdzie F I (x) jest rozkład obserwacji w i-tym bloku . Tę samą hipotezę, ale bardziej szczegółową, uzyskuje się, jeśli zakłada się, że zwykły model addytywny generuje x ij w układzie dwukierunkowym . Model addytywny rozkłada całkowity wpływ na wartość pomiaru na efekt ogólny μ, efekt bloku i β I i efekt grupy j τ j . Jeśli funkcja dystrybucji jest oznaczona F ij (x) = F(X − μ − β i − τ j ), hipoteza zerowa o braku różnic między grupami k może być określona jako

$$ {h}_0:\kern0.5em {\tau}_1=\dots ={\tau}_k, $$

i ogólna hipoteza alternatywna jako

\( {h}_1:\kern0.5em {\Tau}_{j_1}\ne {\Tau}_{j_2} \) dla co najmniej jednej (J 1, j 2) pary.

zauważ, że ta reprezentacja twierdzi również, że podstawowe funkcje dystrybucji F I1(x),…, F IK (x) w obrębie bloku i są takie same, tzn., że F I1(x) = … = F IK (x) = F I (x), dla każdego stałego i = 1,…, n.

Jeśli bloki są losowe, pomiary z tego samego bloku losowego będą dodatnio skorelowane. Na przykład, jeśli pojedynczy podmiot tworzy blok, a obserwacje k są dokonywane na ten temat, prawdopodobnie w randomizowanej kolejności, obserwacje wewnątrz bloku są zależne. Zależność taka występuje w powtarzanym projekcie miar, w którym obserwuje się n badanych, a każdy testowany jest w Warunkach K. Oznaczanie funkcji rozkładu łącznego obserwacji w obrębie bloku i przez F I (x 1,…, x k). Wtedy hipotezą zerową braku różnic między grupami k jest hipoteza wymienności zmiennych losowych X I1,…, x ik, sformułowana jako

H 0 : F I (x 1, …, x K ) = F I (X σ(1),…, x σ(k)) Dla I = 1,…, n,

gdzie σ(1),…, σ(K) oznacza dowolną permutację 1,…, k. Model leżący u podstaw tej hipotezy jest taki, że Zmienne losowe X ij mają rozkład wymienny. Jest to odpowiedni model dla powtarzających się środków, w których nie jest właściwe zakładanie niezależności w ramach bloku . Zauważamy również, że to sformułowanie hipotezy zerowej i tej Dla stałych bloków są spójne wobec tej samej alternatywy, a mianowicie negacji h 0. Szczegółowe omówienie tej kwestii znajduje się w .

czy bloki są stałe czy losowe, jeśli hipoteza zerowa jest prawdziwa, to wszystkie permutacje 1, …, k są równie prawdopodobne. Tam są k ! możliwe sposoby przypisania punktacji K rank do grup K w każdym bloku i wszystkie te permutacje wewnątrz bloku są zgodne pod H 0. Ponieważ ten sam argument permutacji dotyczy każdego z N niezależnych bloków, istnieją (k !) N równie prawdopodobne konfiguracje Rang punktów r ij w układzie dwukierunkowym . Każda z tych permutacji ma prawdopodobieństwo (k !)- N realizacji. Funkcja ta jest używana do oceny zerowego rozkładu Sum Rang R j , poprzez wyliczenie wszystkich permutacji dwukierunkowego układu Rang.

statystyka testu Friedmana

zgodnie z hipotezą zerową Friedmana oczekiwana suma rzędów rang dla każdej grupy wynosi N(k + 1)/2. Statystyka testu Friedmana

$$ {X}_r^2=\frac{12}{NK\left( k+1\right)}{\displaystyle \sum_{j=1}^k{\left\{{r}_j – n\left (k + 1\right) / 2\right\}}^2} $$

sumuje kwadratowe odchylenia obserwowanych Sum rankingowych dla każdej grupy, R j, od wspólnej wartości oczekiwanej dla każdej grupy, n(k + 1) / 2, przy założeniu, że rozkłady grupy k są identyczne. Dla małych wartości k I n dokładny rozkład X 2 r został przedstawiony np. przez Friedmana . Algorytm obliczania dokładnego wspólnego rozkładu Sum rangi Friedmana pod null jest omówiony w . Specjalny przypadek dwóch sparowanych próbek zobacz .

Obliczanie statystyki testu za pomocą rozkładu zerowego (k !) N możliwych permutacji jest czasochłonne, jeśli K jest duże. Friedman wykazał jednak, że gdy n dąży do nieskończoności, X 2 R zbiega się w rozkładzie do χ 2 df = k − 1 , zmiennej losowej chi-kwadrat o k − 1 stopniach swobody. Wynik ten jest wykorzystywany w asymptotycznym teście Friedmana. Test Friedmana odrzuca H 0 przy wcześniej określonym poziomie istotności α, gdy statystyka badania X 2 R przekracza 100(1 − α)percentyla ograniczającego chi-kwadrat rozkładu X 2 r Z k-1 stopni swobody . Statystyka testu musi być dostosowana, jeśli istnieją powiązane szeregi w blokach . Zaproponowano również różne modyfikacje testu Friedmana, na przykład rozkład F jako alternatywę dla rozkładu chi-kwadrat, a także uogólnienia, takie jak statystyka testu Skillings-Mack do użycia w obecności brakujących danych. Te i wiele innych korekt i nieparametrycznych konkurentów do testu Friedmana (np. Kruskal-Wallis, Quade, Friedman aligned ranks test) nie są tutaj omawiane (patrz).

testy porównawcze par i przybliżona różnica krytyczna

często badacze są zainteresowani nie tylko testowaniem globalnej hipotezy równości grup, ale także, a nawet bardziej, wnioskowaniem o równości równości par grup. Ponadto, nawet jeśli ktoś jest głównie zainteresowany H 0 i hipoteza zostanie odrzucona, analiza następcza może być przeprowadzona w celu określenia możliwych przyczyn odrzucenia. Taka analiza może ujawnić różnice grupowe, ale może również ujawnić, że żadna z par nie różni się znacząco, pomimo znaczącego globalnie wyniku testu.

aby rozwiązać te problemy, wskazane jest przetestowanie hipotez równości dla par grup za pomocą symultanicznych testów porównawczych. Te procedury wielokrotnego porównywania mogą obejmować, w porównaniach 1 × N (lub wielu-jeden), testowanie hipotez K − 1 o równości wszystkich grup niekontrolowanych wobec badanej kontroli lub, w porównaniach N × N (wszystkie pary), rozważanie hipotez K(k-1)/2 o równości wszystkich par grup. Dla obu typów porównań zaprojektowano przybliżone testy na dużych próbkach. Są one wyprowadzane dla sytuacji, w której n, liczba bloków (to znaczy, „wielkość próby”), jest duża.

Tabela 2 przedstawia przybliżone testy różnic krytycznych (CD) dla porównania Sum rangi Friedmana 1 × N I N × N, zgodnie z zaleceniami w często cytowanych monografiach i artykułach oraz popularnych podręcznikach statystyki nieparametrycznej. Różnica krytyczna jest minimalną wymaganą różnicą w Sumach rang dla pary grup różniących się na z góry określonym poziomie Alfa istotności. Należy zauważyć, że w wielu publikacjach statystyka CD jest obliczana na podstawie różnicy średnich Sum rankingowych, tj. R j /n, A nie Sum rankingowych. Wyniki są identyczne, ponieważ każda grupa ma N obserwacji, jeśli wzory statystyczne badania są odpowiednio zmodyfikowane.

Tabela 2 zalecana różnica krytyczna (CD) przybliżone testy dla porównania 1 × N I N × N Sum rankingowych Friedmana

gdy hipoteza zerowa równomiernego podziału rang w n niezależnych rankingach jest prawdziwa, a warunek dużej wielkości próby jest spełnione, różnice w Sumach Rang są w przybliżeniu normalnie rozłożone . Niech d = R i − R j , z i ≠ J, będzie różnicą sumy Rang między parą grup i I j. wsparcie różnicy sumy Rang D jest zamknięciem . Zgodnie z hipotezą zerową, wartość oczekiwana E (d) = 0 i wariancji Var (d) = NK (k + 1) / 6 . Ponieważ rozkład d jest symetryczny wokół E (d) = 0, krzywizna jest równa zero, podobnie jak wszystkie nieparzyste momenty rzędu. Współczynnik kurtozy, wyprowadzony przez Whitfielda jako

$$ \mathrm{Kurt}(D)=3-\frac{3}{5 n}-\frac{12}{5 n k}-\frac{6}{5 n k\left( k+1\right)}, $$

jest mniejszy niż 3 (tj. ujemny nadmiar kurtozy), co oznacza, że rozkład różnicy sumy dyskretnej ma cieńsze ogony niż normalnie. Zauważ jednak, że kurtoza ma tendencję do 3 ze wzrostem N, więc normalne przybliżenie jest rozsądne. Oznacza to, że D ma asymptotyczny rozkład N(0, Var(D)) i że normalne odchylenie \( d/\sqrt{\mathrm{Var}(d)} \) jest asymptotycznie N(0, 1).

jak widać w tabeli 2, normalny przybliżony test jest zalecany przez różnych autorów, gdy wszystkie grupy mają być porównywane ze sobą parami. Jest również omawiany przez Demšara jako statystyka testowa, którą należy zastosować, gdy wszystkie grupy są porównywane z jedną kontrolą. Należy zauważyć, że normalne procedury testowe kontrolują współczynnik błędów rodziny typu I, dzieląc ogólny poziom istotności α przez liczbę wykonanych porównań (tj. c 1 w 1 × N i C 2 w porównaniach N × N). Istnieją silniejsi konkurenci tej korekcji typu Bonferroni, tacy jak procedury Holma, Hochberga i Hommela. Metody kontroli ogólnego wskaźnika fałszywie dodatniego błędu nie zostały opracowane w niniejszym artykule. Aby uzyskać samouczek w dziedzinie porównania klasyfikatorów, patrz Derrac et al. .

oprócz zwykłego aproksymacji normalnej zaproponowano jednoczesne testy, które wykorzystują strukturę kowariancji rozkładu wartości różnic w Sum rankingowych. Podczas gdy rankingi n są wzajemnie niezależne pod H 0, sumy rang i różnice Sum Rang są również zależne i skorelowane. Korelacja pomiędzy różnicami sum Rang zależy od Sum Rang. W szczególności , jak poinformował Miller, gdy hipoteza zerowa jest prawdziwa

$$ \mathrm{C}\mathrm{o}\mathrm{r}\left({r}_i-{R}_j, {R}_i-{r}_l\right)={\scriptscriptstyle \frac{1}{2}}\kern2.25em i\ne j\ne l $$

$$ \mathrm{C}\mathrm{o}\mathrm{r}\Left({r}_i-{r}_j, {r}_l-{r}_m\right)=0\kern2.25em i\ne j\ne l\ne m. $$

stąd korelacja wynosi zero dla par różnic sumy rang bez wspólnej grupy i 0.5 dla par różnic z jedną grupą wspólną dla obu różnic. Liczba skorelowanych par maleje wraz ze wzrostem K. W badaniu z udziałem grup k odsetek skorelowanych par wynosi 4/(k + 1). Stąd, gdy k = 7, na przykład, 50% par są skorelowane, ale gdy k = 79 tylko 5% są skorelowane.

jak zauważono w różnych badaniach (np.), dla porównań 1 × N ta struktura korelacji implikuje, że gdy h 0 jest prawdziwe, a n dąży do nieskończoności, rozkład różnic między sumami rangi grupy k − 1 a sumą rangi kontrolnej pokrywa się z asymptotycznym (K − 1) -wariacyjnym rozkładem normalnym ze średnią zerową. Wartość różnicy krytycznej może być zatem przybliżona przez statystykę badania oznaczoną CD M W Tabeli 2, gdzie stała \ ({m}_{\alpha, df= k-1,\rho ={\scriptscriptstyle \frac{1}{2}}} \) jest górnym percentylem rozkładu maksymalnej wartości(k − 1) równo skorelowanych N (0,1) zmiennych losowych o wspólnej korelacji \ (\rho ={\scriptscriptstyle \frac{1}{2}}. \ ) Procedura ma asymptotyczny współczynnik błędu rodziny równy α .

dla porównań N × N oznacza to, że KOWARIANCJA różnic sumy rang jest równa kowariancji różnic między K niezależnymi zmiennymi losowymi o średniej zerowej i wariancjami nk(k + 1)/12. Zatem asymptotyczny rozkład \ (max \ left\{\left / {r} _i – {r}_j\right / \right\} / \sqrt{nk\left (k+1\right)/12}\) pokrywa się z rozkładem zakresu (Q K,∞) K niezależnych zmiennych losowych N(0, 1). Powiązaną statystyką badania jest CD Q, gdzie stała Q α, DF = k,∞ jest górnym percentylem Ath rozkładu zakresu (q) Z (k, ∞) stopni swobody . Ponownie, ponieważ test uwzględnia bezwzględną różnicę wszystkich grup k jednocześnie, asymptotyczny współczynnik błędu rodziny jest równy α .

sam test Friedmana prowadzi do symultanicznego testu wymienionego w dolnym wierszu tabeli 2. Hipoteza zerowa jest akceptowana, jeśli różnica Sum rangi nie przekracza wartości krytycznej \ (C{D}_{\chi^2}. \ ) To asymptotyczne przybliżenie chi-kwadrat jest zalecane w niektórych popularnych podręcznikach, chociaż Miller twierdził, że stwierdzenie prawdopodobieństwa nie jest najostrzejszym z testów.

moc statystyczna i testy alternatywne

należy zauważyć, że statystyki testu CD przedstawione w tabeli 2 nie wymagają informacji o szeregach wewnątrz bloku określonych w eksperymencie. Zamiast tego, wszystkie testy jednoczesnej rangi zakładają, że w każdym bloku każda obserwacja może mieć taką samą rangę. Jeśli to prawda, ilość (k + 1) (k − 1)/12 jest wariancją rankingu wewnątrz bloku, a NK (k + 1)/6 wariancją różnicy między dowolnymi dwiema sumami rankingowymi . Stąd zerowy rozkład d w populacji ma zerową średnią i znane odchylenie standardowe. Jest to dokładny powód, dla którego normalne przybliżone testy wykorzystują wynik z jako statystykę testu. Jednak ważne jest, aby podkreślić w tym kontekście, że pierwiastek kwadratowy NK (k + 1) / 6 jest odchyleniem standardowym d, gdy ogólna hipoteza zerowa jest prawdziwa, ale nie wtedy, gdy jest fałszywa. Posiada, podobnie jak wartości p, tylko w konkretnym modelu, tj. H 0; model, który może, ale nie musi być prawdziwy. Jeśli hipoteza zerowa jest fałszywa, ilość nk (k + 1) / 6 jest zazwyczaj nadmiernym oszacowaniem wariancji, a to powoduje jednoczesne testy, przybliżone i dokładne, do utraty mocy.

istnieją testy porównawcze parowe dla Sum rankingowych Friedmana, które są obliczane na podstawie obserwowanych wyników rankingowych, a nie Sum rankingowych. Testy te , takie jak test Rosenthala-Fergusona i popularny test Conovera, wykorzystują wynik t jako statystykę testu. Parowe testy t są często bardziej wydajne niż równoczesne testy omówione powyżej, jednak istnieją również wady. W skrócie, Test Rosenthala-Fergusona wykorzystuje zaobserwowane wariancje i kowariancję wyników Rang każdej pary grup, aby uzyskać standardowy błąd d do badania znaczenia pary różnicy Sum Rang. Ten standardowy błąd jest ważny, czy hipoteza zerowa braku różnicy par jest prawdziwa, czy nie. Jednakże, obok formalnego ograniczenia testu, że n powinno być większe niż k + 1, wariancja d może być słabo oszacowana, ponieważ zazwyczaj istnieje kilka stopni swobody dostępnych do oszacowania (Ko-)wariancji w zastosowaniach testowych Friedmana z małymi próbkami. Ponadto obserwowane (Ko-)wariancje są różne dla każdej pary grup. W związku z tym nie wynika ze znaczenia różnicy danej sumy rankingowej A od innej sumy rankingowej B, że trzecia suma rankingowa C, bardziej różniąca się od A niż B, również byłaby znacząco różna. Jest to nieprzyjemna cecha testu.

test Conovera Szacuje odchylenie standardowe d, obliczając łączny błąd standardowy z (ko-)wariancji obserwowanych wyników Rang wszystkich grup, zwiększając w ten sposób siłę statystyczną. Metoda jest podobna do testu Fisher ’ s protected Least Significant Difference (LSD), stosowanego do oceny Rang. W tej metodologii nie dokonuje się dostosowania wartości p w celu zachowania współczynnika błędu rodziny na nominalnym poziomie istotności. Test jest raczej chroniony w tym sensie, że nie przeprowadza się porównań par, chyba że ogólna statystyka badania jest znacząca. Podobnie jak w procedurze Fisher protected LSD, test Conovera ma właściwość włączenia obserwowanej wartości f całego testu do procesu decyzyjnego wnioskowania. Jednak w przeciwieństwie do LSD chronionego przez Fishera, który wykorzystuje obserwowaną wartość F tylko w sposób 0-1 („go/no go”), test Conovera wykorzystuje wartość F w płynny sposób podczas obliczania LSD. Oznacza to, że ma niezwykłą cechę, że im większa ogólna statystyka testu, tym mniejszy próg najmniej znaczącej różnicy jest dla stwierdzenia, że różnica sumy rankingowej jest znacząca. Test Duncana-Wallera ma tę samą cechę, ale ten test opowiada się za Bayesowskim podejściem do wielokrotnych porównań z Bayesowskim LSD. Ponieważ testy porównawcze w drugim etapie są uzależnione od wyniku pierwszego etapu, nominalny poziom alfa stosowany w teście parowym Conovera nie ma rzeczywistego znaczenia probabilistycznego w sensie częstotliwościowym. Jak zauważyli Conover i Iman (: 2), ” ponieważ poziom α testu drugiego stopnia zwykle nie jest znany, nie jest to już test hipotezy w zwykłym znaczeniu, ale raczej po prostu wygodny miar dla oddzielenia niektórych zabiegów od innych.”

dokładny rozkład i szybkie obliczanie wartości p

prezentujemy dokładny test dla jednoczesnego porównania par Sum rangi Friedmana. Dokładny rozkład zerowy określa się za pomocą metody funkcji generowania prawdopodobieństwa. Funkcje generowania zapewniają elegancki sposób na uzyskanie rozkładów prawdopodobieństwa lub częstotliwości bezstratnych statystyk testowych . Zastosowanie metody generowania funkcji daje podstawę do następującego twierdzenia, którego dowód znajduje się w dodatkowym pliku 1.

twierdzenie 1 dla N wzajemnie niezależnych rankingów o wartości całkowitej, każdy z równie prawdopodobnymi wynikami rankingowymi w zakresie od 1 do k, dokładne prawdopodobieństwo uzyskania różnicy par d dla dowolnych dwóch Sum rankingowych jest równe

$$ p\left( D= d; k, N\right)={\left\{ k\left( k-1\right)\right\}}^ {- n} w\left( D= d; K, N\right), $$

gdzie

$$ w\left( D= D; k, N\right)={\left\{ K\left( K-1\right)\right\}}^n{\displaystyle \sum_{h=0}^N\left(\begin{array}{c}\hfill n\hfill \ hfill \ end {array}\right)}\\frac{1} {k^h {\left(1 – k\ right)}^n} {\displaystyle\sum_ {i=0}^h {\displaystyle\sum_ {j=0}^h {\Left(-1\right)}^{\left( J – I\right)}}\left (\begin {array} {c}\hfill h\hfill\end{array}\right)\left (\begin {array} {c} \ hfill H\hfill\end{array} \right)\left (\begin{array} {c}\hfill k\Left( J – I\right)- d+ h-1 \ hfill \ \{}\hfill k \Left( J – I\right)- D – h\hfill\end{array}\right) $$

jest liczbą różne sposoby różnica sumy Rang D może powstać, przy czym D ma wsparcie na d = .

dodatkowy plik 1 oferuje również wyrażenie w formie zamkniętej dla dokładnej wartości p d. wartość p jest zdefiniowana jako prawdopodobieństwo uzyskania wyniku co najmniej tak ekstremalne, jak obserwowany, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa. Otrzymuje się ją jako sumę prawdopodobieństw wszystkich możliwych d, dla tego samego k I n, które są równie prawdopodobne lub mniej prawdopodobne niż zaobserwowana wartość D pod wartością null. Dokładna wartość p oznacza się P (D ≥ D; k, n), i jest obliczany za pomocą wyrażenia

$$ \ begin{array}{l} P\left (D\GE d; k, N\right)={\displaystyle \sum_{h=0}^N\left(\begin{array}{c}\hfill n\hfill \ hfill \ end {array}\right)}\\frac{1} {k^h {\left(1 – k\ right)}^n} {\displaystyle\sum_ {i=0}^h {\displaystyle\sum_ {j=0}^h {\left(-1\right)}}} \left (\begin {array} {c}\hfill h\hfill\\{}\hfill i\hfill\end{array} \ right) \ left (\begin {array} {c}\hfill h \hfill\end{array}\right)\left (\begin{array} {c}\hfill K \ Left (J – I \ right) – d+ h\hfill\\{}\hfill K\Left( J – I\right) – d – h\hfill\end{array}\right),\ \ {} \ kern27.5em d= – n\left( K – 1\Right),\Dots, n\Left( K-1 \Right).\ end{array} $$

obliczenie dokładnej wartości p za pomocą tego potrójnego wyrażenia sumującego zapewnia przyspieszenie rzędu wielkości nad całkowitym wyliczeniem wszystkich możliwych wyników i ich prawdopodobieństw metodą permutacji brute-force. Jednak dla większych wartości N dokładne obliczenia są dość czasochłonne, a aby rozszerzyć praktyczny zakres wykonywania dokładnych testów, pożądane jest bardziej wydajne obliczanie wartości P.

Ponadto, ponieważ w praktyce wielokrotne testy porównawcze dotyczą różnic bezwzględnych, wskazane jest obliczenie skumulowanego prawdopodobieństwa wartości bezwzględnej różnic w Sum rankingowych. Ponieważ liczba punktów masowych rozkładu symetrycznego d jest liczbą całkowitą postaci 2N(k − 1) + 1, rozkład ma nieparzystą liczbę prawdopodobieństw. Oznacza to, że ponieważ funkcja masy prawdopodobieństwa D jest symetryczna wokół zera, masa prawdopodobieństwa po lewej stronie d = 0 może być złożona, co skutkuje złożonym rozkładem nieujemnego d. W konsekwencji jednostronną wartość p nieujemnego d w zakresie d = 1,…, n (k-1) można otrzymać jako sumę dwóch jednostronnych wartości p rozkładu symetrycznego ze wsparciem d = . Ponieważ podwojenie jednostronnej wartości p prowadzi do wartości p dla D = 0, która przekracza jedność, wartość p dla D = 0 (tylko) jest obliczana jako P (D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1), A to jest dokładnie równe 1.

aby przyspieszyć obliczenia, przekształcamy podwójne sumowanie nad indeksami i I j w wyrażeniu dla P(D ≥ D; k, n) do sumowania nad pojedynczym indeksem, powiedzmy, za pomocą twierdzenia 2. Dowód znajduje się w dodatkowym pliku 2.

twierdzenie 2 dla nieujemnych liczb całkowitych d i k

$$ {\displaystyle \sum_{i=0}^h{\displaystyle \sum_{j=0}^h{\left(-1\right)}^{\left( j – I\right)}}\left(\begin{array} {c}\hfill h\hfill \ \ {} \hfill i\hfill \end{array}\right)\left(\begin{array} {C}\hfill H\hfill \ \ {} \hfill j\hfill \end{array}\right)\left(\begin{array} {c}\hfill K\Left( J – I\right)- d+ h\hfill \ \ {} \hfill k\left( J – I\right)- d – h\hfill \end{array}\right)={\displaystyle \sum_{S=0}^h{\Left(-1\right)}^s}\left(\begin{array} {C}\hfill 2 h\hfill \ \ {} \hfill h+ S\hfill \end{array}\right)\left(\begin{array} {C}\hfill k s- d+ h\hfill \ \ {} \ hfill k s-D-h\hfill \ end{array} \ right). $$

to zmniejszenie do funkcji o pojedynczej sumie oznacza, że wartość p można alternatywnie obliczyć ze znacznie prostszego wyrażenia

$$ p\left (D\ge\ \ left / D\right|; k, N\right)=\left\{\begin{array}{c}\hfill 2\ {\displaystyle \sum_{h=0}^N\left(\begin{array}{c}\hfill n\hfill \\ {}\hfill h\hfill \end{array}\right)}\frac{1}{k^h{\left(1 – k\right)}^n}{\displaystyle \sum_{s=0}^h{\left(-1\right)}^s\left(\begin{array}{c}\hfill 2 h\hfill \\ {}\hfill h+ S\hfill \end{array}\right)\left(\begin{array}{C}\hfill KS – d+ h\hfill \\ {}\hfill KS – d – h\hfill \end{array}\right)}, \kern1.8EM d=1,\Dots, n\Left( K-1\Right)\hfill \\ {}1\kern22.5em d=0,\kern3em \end{array}\right. $$

i, jak pokażemy, nawet dla większych wartości n w sposób obliczeniowo szybki.

implementacja oprogramowania

chociaż dwa wyrażenia dla dokładnej wartości p są matematycznie poprawne, proste obliczenia mogą powodować błędy obliczeniowe. Nawet dla umiarkowanych wartości n (20 lub więcej), dwumianowy współczynnik, który ma d w indeksach, może stać się bardzo duży, a przechowywanie tych liczb do późniejszego mnożenia tworzy przepełnienie liczbowe ze względu na ograniczenie precyzji arytmetyki o stałej precyzji. Jednym ze sposobów rozwiązania tego błędu jest użycie relacji powtarzania, która spełnia funkcję generującą . Rekurencje, które zbadaliśmy, były kosztowne obliczeniowo, jednak z wyjątkiem małych wartości n i / lub k. szybszym sposobem na prawidłowe obliczenie dokładnej wartości p jest użycie arbitralnie precyzyjnych obliczeń arytmetycznych do czynienia z liczbami, które mogą być arbitralnie Duże, ograniczone tylko dostępną pamięcią komputera.

obliczenie wartości p bezwzględnej różnicy sumy Rang d podanej k I n jest realizowane w R . Kod R, który wymaga zainstalowania pakietu Rmpfr do arytmetyki o wysokiej precyzji, znajduje się w dodatkowym pliku 3. Skrypt oznaczony jako pexactfrsd oblicza dokładną wartość p p(d ≥ |d|), a dodatkowo daje możliwość obliczenia prawdopodobieństwa P (D = |d|) i (skumulowanej) liczby kompozycji d(tj. W(D = |d|) i W (d ≥ |d|)). Kod R i potencjalne przyszłe aktualizacje są również dostępne pod adresem http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.

aby zilustrować pochodne, dodatkowy plik 4 oferuje mały przykład liczbowy (k = 3, n = 2), a dodatkowy plik 5 tabuluje liczbę kompozycji d dla kombinacji k = N = 2,…,6 do włączenia do OEIS . Jak widać w dodatkowym pliku 5, dla małych wartości N rozkład symetryczny d jest bimodalny, z trybami + 1 i – 1 . Ta cecha szybko zanika wraz ze wzrostem n, w szczególności dla k > 2 przy n ≥ 6.

Dalej, o ile nie zaznaczono inaczej, uznamy wartość różnicy sumy d za zerową lub dodatnią, w zakresie od 0 do n (k-1), a tym samym opuścimy symbol wartości bezwzględnej wokół d.

niekompletne rankingi

ponieważ rankingi n {1,2,…,k} są wzajemnie niezależne, możemy podzielić je na dwie (lub więcej), równe lub nierówne wielkości części, oznaczone (D 1; k, n 1) i (D 2; k, N 2), z ∑ 2 t = 1 D t = D I D T oznaczające różnice w Sumach rankingowych obu części. Dokładną wartość p można uzyskać za pomocą

$$ p\left( D\ge d; k, n\right)= p\left( D\GE d; k,{n}_1,{n}_2\right)={\displaystyle \sum_{i=-{n}_1\left( k-1\right)}^{n_1\left( k-1\right)} P\left({D}_1= i; K,{n}_1\right)}\times P\left({D}_2\GE \left( D-I\right); K, {N}_2\right), $$

gdzie – jak wskazuje dolna granica sumowania – obliczanie odbywa się za pomocą wyrażenia wartości p, które pozwala na ujemne d. unikalną i użyteczną właściwością dokładnej metody, która nie jest wspólna dla przybliżonych metod omówionych, jest to, że łatwo jest obliczyć prawdopodobieństwo wartości p dla projektów o nierównych rozmiarach bloków k; np. projekty, w których n 1 ma szeregi {1, 2,…, k 1}, A N 2 szeregi {1, 2,…, K 2}, z K 1 ≠ K 2. Ogólnym wyrażeniem do obliczania dokładnej wartości p w niekompletnych projektach z częściami o nierównych rozmiarach j jest

$$ \begin{array}{l} P\left( D\GE d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots, {k}_j,{n}_j\right)={\displaystyle \sum_{i_1=-{n}_1\left({k}_1-1\right)}^{n_1\left({K}_1-1\right)}{\displaystyle \sum_{i_2=-{N}_2\Left({K}_2-1\right)}^{n_2\left({k}_2-1\right)}\cdots {\displaystyle \sum_{i_{j-1}=-{N}_{J-1}\left({k}_{j-1}-1\right)}^{n_{J-1}\left({K}_{j-1}-1\right)}} p\left({D}_1={i}_1;{k}_1,{N}_1\right) \times }}\ \\ {}\kern4.25em \\ {}\kern4em P\left({D}_2={i}_2;{k} _2,{n}_2\right)\times \cdots \times P\left({D}_{J-1}={i}_{J-1}; {k}_{j-1}, {n}_{j-1}\right)\times P\left({D} _j\ge \left( d-{i}_1-{i}_2\cdots -{i}_{j-1}\right);{k} _j,{n}_j\right),\end{array} $$

gdzie ∑ J T = 1 d T = D, A przykładem, w którym N jest podzielone na trzy części, z których każda ma unikalną wartość k (k 1, K 2, K 3), jest

$$ \begin{array} {l} p\left( D\GE d;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\right)={\displaystyle \sum_{i=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle \sum_{j=-{n}_2\left({k}_2-1\right)}^{n_2\left({k}_2-1\right)} p\left({D}_1= i;{k}_1,{N}_1\right) \times }}\\ {}\\ {}\kern13. 5em P\left({D}_2= j;{k}_2,{n}_2\right)\times P\left({D}_3\ge \left( d – i – j\right);{k}_3,{n}_3\right).\end{array} $$

chociaż funkcje sumy spowalniają obliczenia, ta unikalna cecha dokładnych obliczeń wartości p umożliwia przeprowadzenie ważnych jednoczesnych testów istotności, gdy brakuje niektórych szeregów wewnątrz bloku. Takie testy byłyby trudne do wykonania przy użyciu jednej z metod przybliżania dużych próbek. Przykład empiryczny zostanie podany w sekcji aplikacji.

dokładne i średnie wartości p

ponieważ pary różnic ze wsparciem na d = są symetrycznie rozmieszczone wokół zera pod H 0, podwojenie jednostronnej wartości p jest najbardziej naturalnym i popularnym wyborem dla zwykłego testu dokładnego. Badanie przy użyciu dokładnej wartości p gwarantuje, że prawdopodobieństwo popełnienia błędu typu I nie przekracza nominalnego poziomu istotności. Jednakże, ponieważ poziom błędu typu I jest zawsze poniżej poziomu nominalnego, test istotności z dokładną wartością p jest konserwatywnym podejściem do testowania, zwłaszcza jeśli test obejmuje wysoce dyskretny rozkład . Średnia wartość p, Zwykle definiowana jako połowa prawdopodobieństwa obserwowanej statystyki plus prawdopodobieństwo bardziej ekstremalnych wartości, tj.

$$ {P}_{\mathrm{mid}}\left( D\GE d; k, n\right)={\scriptscriptstyle \frac{1}{2}} P\left( D= D\right)+ p\left( D> d\right), $$

rozwiązuje ten problem. Średnia wartość p jest zawsze bliżej poziomu nominalnego niż dokładna wartość p, kosztem okazjonalnego przekraczania wielkości nominalnej.

wiązane rankingi

Średnia wartość p może być również używana do obsługi wiązanych rankingów. Gdy remisy występują w blokach, midrank (tj. średnia rang) jest zwykle przypisywana do każdej powiązanej wartości. Jeśli w wyniku wiązanych szeregów obserwowana różnica sumy rang jest liczbą całkowitą D plus 0,5, wartość p można otrzymać jako średnią dokładnych wartości p sąsiednich liczb całkowitych d I d + 1, tj. \ ({\scriptscriptstyle \frac{1}{2}}\left,\) i jest to równoważne średniej wartości P. Należy zauważyć, że wynikające z tego Prawdopodobieństwo nie jest dokładnie prawidłowe. Dokładne wartości p reprezentują dokładne prawdopodobieństwo występowania pewnych zdarzeń, a średnie wartości p nie mają takiej interpretacji częstotliwości. Można jednak argumentować, że ta wada interpretacyjna nie budzi praktycznie żadnych obaw i że stosowanie średnich wartości p jest niemal dokładnym podejściem częstotliwościowym. W celu omówienia innych metod leczenia więzów w testach rankingowych, zobacz .