Genaue p-Werte für den paarweisen Vergleich von Friedman-Rangsummen, mit Anwendung auf den Vergleich von Klassifikatoren
Friedman-Daten
Um den Friedman-Test durchzuführen, sind die beobachteten Daten in Form eines vollständigen Zwei-Wege-Layouts angeordnet, wie in Tabelle 1A, wobei die k Zeilen die Gruppen (Klassifikatoren) und die n Spalten die Blöcke (Datensätze) darstellen.
Die Daten bestehen aus n Blöcken mit k Beobachtungen innerhalb jedes Blocks. Beobachtungen in verschiedenen Blöcken werden als unabhängig angenommen. Diese Annahme gilt nicht für die k Beobachtungen innerhalb eines Blocks. Die Testprozedur bleibt trotz blockinterner Abhängigkeiten gültig. Die Friedman-Teststatistik ist für Ranglistendaten definiert. Sofern es sich bei den ursprünglichen Rohdaten nicht um ganzzahlige Ranglisten handelt, werden die Rohdaten rangtransformiert. Die Rangeinträge in Tabelle 1B erhält man, indem man zunächst die Rohdaten {x ij; i = 1, …, n, j = 1, …, k} in Tabelle 1A spaltenweise innerhalb jedes der n Blöcke getrennt und unabhängig voneinander vom kleinsten zum größten ordnet und dann die ganzen Zahlen 1,…,k als Rangwerte der k Beobachtungen innerhalb eines Blocks zuordnet. Die Zeilensumme der Ränge für jede Gruppe j ist die Rangsumme definiert als R j = ∑ ni = 1 r ij .
Nullhypothese
Die allgemeine Nullhypothese des Friedman-Tests ist, dass alle k blockierten Proben der Größe n aus identischen, aber nicht spezifizierten Populationsverteilungen stammen. Um diese Nullhypothese genauer zu spezifizieren, sei X ij eine Zufallsvariable mit unbekannter kumulativer Verteilungsfunktion F ij und sei x ij die Realisierung von X ij .
Die Nullhypothese kann auf zwei Arten definiert werden, je nachdem, ob Blöcke fest oder zufällig sind . Wenn Blöcke fest sind, sind alle k × n-Messwerte unabhängig. Wenn k Gruppen zufällig zugewiesen sind, um k nicht verwandte X ij innerhalb jedes Blocks zu halten, wie in einem randomisierten vollständigen Blockdesign, dann kann die Nullhypothese, dass die k Gruppen identische Verteilungen haben, formuliert werden als
H 0: F i1(x) = … = F ik (x) = F i(x) für jeden i = 1, …, n,
wobei F i (x) die Verteilung der Beobachtungen im i-ten Block ist. Die gleiche Hypothese, aber spezifischer, wird erhalten, wenn angenommen wird, dass das übliche additive Modell das x ij im Zwei-Wege-Layout erzeugt hat . Das additive Modell zerlegt den Gesamteffekt auf den Messwert in einen Gesamteffekt μ, Block i-Effekt β i und Gruppen j-Effekt τ j. Wenn die Verteilungsfunktion mit F ij (x) = F(x − μ − β i − τ j) bezeichnet wird, kann die Nullhypothese ohne Unterschiede zwischen den k Gruppen als
und die allgemeine Alternativhypothese als
\( {H}_1:\kern0.5em {\ tau}_{j_1}\ne {\tau}_{j_2} \) für mindestens ein (j 1, j 2) Paar.
Beachten Sie, dass diese Darstellung auch behauptet, dass die zugrunde liegenden Verteilungsfunktionen F i1(x), …, F ik (x) innerhalb des Blocks i gleich sind, dh dass F i1(x) = … = F ik (x) = F i (x) für jeden Block i = 1, …, n.
Wenn Blöcke zufällig sind, werden Messungen aus demselben zufälligen Block positiv korreliert. Wenn beispielsweise ein einzelnes Subjekt einen Block bildet und k Beobachtungen an dem Subjekt gemacht werden, möglicherweise in randomisierter Reihenfolge, sind die Beobachtungen innerhalb des Blocks abhängig. Eine solche Abhängigkeit tritt in einem Design mit wiederholten Messungen auf, bei dem n Probanden beobachtet werden und jedes Subjekt unter k Bedingungen getestet wird. Bezeichnen Sie die gemeinsame Verteilungsfunktion von Beobachtungen innerhalb des Blocks i mit Fi (x 1, …, x k). Dann ist die Nullhypothese ohne Unterschiede zwischen den k Gruppen die Hypothese der Austauschbarkeit der Zufallsvariablen X i1, …, X ik , formuliert als
H 0: F i (x 1, …, x k) = F i (x σ(1), …, x σ(k)) für i = 1, …, n,
wobei σ(1), …, σ(k) eine beliebige Permutation von 1, …, k bezeichnet. Das dieser Hypothese zugrunde liegende Modell ist, dass die Zufallsvariablen X ij eine austauschbare Verteilung haben. Dies ist ein geeignetes Modell für wiederholte Messungen, bei denen es nicht angebracht ist, die Unabhängigkeit innerhalb eines Blocks anzunehmen . Wir stellen auch fest, dass diese Formulierung der Nullhypothese und die für feste Blöcke gegen dieselbe Alternative, nämlich die Negation von H 0, konsistent sind. Für eine detaillierte Diskussion dieser Angelegenheit, sehen .
Ob Blöcke fest oder zufällig sind, wenn die Nullhypothese wahr ist, dann sind alle Permutationen von 1, …, k gleich wahrscheinlich. Es gibt k ! mögliche Möglichkeiten, den k Gruppen innerhalb jedes Blocks k Rangpunkte zuzuweisen, und alle diese Intra-Block-Permutationen sind unter H gleich wahrscheinlich 0. Da für jeden der n unabhängigen Blöcke dasselbe Permutationsargument gilt, gibt es (k !)n ebenso wahrscheinliche Rangkonfigurationen der Ranglisten r ij im Zwei-Wege-Layout. Jede dieser Permutationen hat eine Wahrscheinlichkeit von (k !)- n realisiert werden. Diese Funktion wird verwendet, um die Nullverteilung der Rangsummen R j auszuwerten , indem alle Permutationen des Zwei-Wege-Layouts von Rängen aufgelistet werden.
Friedman-Teststatistik
Unter der Friedman-Nullhypothese ist die erwartete Zeilensumme der Ränge für jede Gruppe gleich n(k + 1)/2. Die Friedman-Test-Statistik
summiert die quadrierten Abweichungen der beobachteten Rangsummen für jede Gruppe, Rj , vom gemeinsamen Erwartungswert für jede Gruppe, n(k + 1)/2, unter der Annahme, dass die k-Gruppenverteilungen identisch sind. Für kleine Werte von k und n wurde die genaue Verteilung von X 2 r beispielsweise von Friedman vorgelegt. Ein Algorithmus zur Berechnung der genauen gemeinsamen Verteilung der Friedman-Rangsummen unter der Null wird in diskutiert . Für den speziellen Fall von zwei gepaarten Proben, siehe .
Berechnung der Teststatistik unter Verwendung der Nullverteilung des (k !)n mögliche Permutationen sind zeitaufwändig, wenn k groß ist. Friedman zeigte jedoch, dass, wenn n gegen unendlich tendiert, X 2 r in der Verteilung zu χ 2 df = k − 1 konvergiert , einer chi-quadratischen Zufallsvariablen mit k − 1 Freiheitsgraden. Dieses Ergebnis wird im asymptotischen Friedman-Test verwendet. Der Friedman-Test lehnt H 0 bei einem vorgegebenen Signifikanzniveau α ab, wenn die Teststatistik X 2 r das 100 (1 − α) -te Perzentil der begrenzenden Chi−Quadrat-Verteilung von X 2 r mit k – 1-Freiheitsgraden überschreitet . Die Teststatistik muss angepasst werden, wenn innerhalb von Blöcken Ränge gebunden sind . Es wurden auch verschiedene Modifikationen des Friedman-Tests vorgeschlagen, beispielsweise die F-Verteilung als Alternative zur Chi-Quadrat-Verteilung sowie Verallgemeinerungen, wie die Skillings-Mack-Teststatistik zur Verwendung bei fehlenden Daten. Diese und verschiedene andere Anpassungen und nichtparametrische Konkurrenten des Friedman-Tests (z. B. Kruskal-Wallis, Quade, Friedman Aligned Ranks Test) werden hier nicht diskutiert (siehe ).
Paarweise Vergleichstests und ungefähre kritische Differenz
Häufig sind Forscher nicht nur daran interessiert, die globale Hypothese der Gleichheit von Gruppen zu testen, sondern auch oder noch mehr, auf die Gleichheit der Gleichheit von Gruppenpaaren zu schließen. Selbst wenn man hauptsächlich an H 0 interessiert ist und die Hypothese abgelehnt wird, kann eine Follow-up-Analyse durchgeführt werden, um mögliche Gründe für die Ablehnung zu ermitteln. Eine solche Analyse kann Gruppenunterschiede offenbaren, aber es könnte auch zeigen, dass keines der Paare signifikant unterschiedlich ist, trotz eines global signifikanten Testergebnisses.
Um diese Probleme anzugehen, ist es zweckmäßig, Gleichheitshypothesen für Gruppenpaare mit simultanen Vergleichstests zu testen. Diese Mehrfachvergleichsverfahren können in 1 × N- (oder Many−One-) Vergleichen k – 1−Hypothesen der Gleichheit aller Nichtkontrollgruppen gegen die Studienkontrolle oder in N × N-Vergleichen (alle Paare) unter Berücksichtigung von k (k – 1) / 2-Hypothesen der Gleichheit zwischen allen Gruppenpaaren. Für beide Arten von Vergleichen wurden ungefähre Tests mit großen Stichproben entwickelt. Sie werden für die Situation abgeleitet, in der n, die Anzahl der Blöcke (dh die Stichprobengröße), groß ist.Tabelle 2 zeigt die Critical Difference (CD) approximate Tests für 1 × N und N × N Vergleiche von Friedman Rang Summen, wie in vielzitierten Monographien und Papieren und populären Lehrbüchern über nichtparametrische Statistik empfohlen. Der kritische Unterschied ist der minimal erforderliche Unterschied in den Rangsummen, damit sich ein Paar von Gruppen auf dem vordefinierten Alpha-Signifikanzniveau unterscheidet. Es ist zu beachten, dass in vielen Veröffentlichungen die CD-Statistik unter Verwendung der Differenz der Rangsummenmittelwerte, d. H. Rj / n, und nicht der Rangsummen berechnet wird. Die Ergebnisse sind identisch, da jede Gruppe n Beobachtungen hat, wenn die Teststatistikformeln entsprechend geändert werden.
Wenn die Nullhypothese der Äquidistribution von Rängen in n unabhängigen Rankings zutrifft und die Bedingung einer großen Stichprobengröße erfüllt ist, werden die Unterschiede in der Rangfolge summen sind annähernd normal verteilt . Sei d = R i – R j mit i ≠ j die Rangsummendifferenz zwischen einem Paar von Gruppen i und j. Die Unterstützung der Rangsummendifferenz d ist der Abschluss . Unter der Nullhypothese ist der Erwartungswert E(d) = 0 und die Varianz Var(d) = nk(k + 1)/6 . Da die Verteilung von d symmetrisch um E(d) = 0 ist, ist die Schiefe Null, wie alle Momente ungerader Ordnung. Der Kurtosis-Koeffizient, abgeleitet von Whitfield als
ist kleiner als 3 (d. h. negative überschüssige Kurtosis), was bedeutet, dass die diskrete Rangsummendifferenzverteilung dünnere Schwänze aufweist als die normale. Beachten Sie jedoch, dass die Kurtosis mit zunehmendem n zu 3 tendiert, daher ist eine normale Annäherung sinnvoll. Dies impliziert, dass d eine asymptotische N(0, Var(d)) -Verteilung hat und dass die normale Abweichung \( d/\sqrt{\mathrm{Var}(d)} \) asymptotisch N(0, 1) ist.
Wie in Tabelle 2 zu sehen ist, wird der normale Näherungstest von verschiedenen Autoren empfohlen, wenn alle Gruppen paarweise miteinander verglichen werden sollen. Es wird auch von Demšar als Teststatistik diskutiert, die verwendet werden soll, wenn alle Gruppen mit einer einzigen Kontrolle verglichen werden. Beachten Sie, dass die normalen Testverfahren die familiäre Typ-I-Fehlerrate steuern, indem Sie das Gesamtsignifikanzniveau α durch die Anzahl der durchgeführten Vergleiche dividieren (d. h. c 1 in 1 × N und c 2 in N × N Vergleichen). Es gibt stärkere Konkurrenten zu dieser Korrektur vom Bonferroni-Typ, wie die Holm-, Hochberg- und Hommel-Verfahren. Diese Methoden zur Kontrolle der gesamten falsch positiven Fehlerrate werden in diesem Artikel nicht näher erläutert. Ein Tutorial zum Vergleich von Klassifikatoren finden Sie unter Derrac et al. .
Zusätzlich zur normalen Approximation wurden simultane Tests vorgeschlagen, die die Kovarianzstruktur der Verteilung der Werte von Differenzen in Rangsummen ausnutzen. Während die n Ranglisten unter H 0 voneinander unabhängig sind, sind auch die Rangsummen und die Rangsummendifferenzen abhängig und korreliert. Die Korrelation zwischen den Rangsummendifferenzen hängt von den beteiligten Rangsummen ab. Insbesondere, wie von Miller berichtet, wenn die Nullhypothese wahr ist
Daher ist die Korrelation Null für Paare von Rangsummendifferenzen ohne gemeinsame Gruppe und 0,5 für Paare von Differenzen mit einer gemeinsamen Gruppe für beide Differenzen. Die Anzahl der korrelierten Paare nimmt mit zunehmendem k ab. Für eine Studie mit k Gruppen entspricht der Anteil der korrelierten Paare 4 / (k + 1) . Wenn also beispielsweise k = 7 ist, sind 50% der Paare korreliert, aber wenn k = 79 ist, sind nur 5% korreliert.Wie in verschiedenen Studien (z. B.) erwähnt, impliziert diese Korrelationsstruktur für 1 × N-Vergleiche, dass, wenn H 0 wahr ist und n gegen unendlich tendiert, die Verteilung der Differenzen zwischen den k − 1−Gruppenrangsummen und der Kontrollrangsumme mit einer asymptotischen (k – 1) -variierten Normalverteilung mit Nullmitteln übereinstimmt. Der kritische Differenzwert kann daher durch die in Tabelle 2 mit CD M bezeichnete Teststatistik angenähert werden, wobei die Konstante \({m}_{\alpha, df= k-1,\rho ={\scriptscriptstyle \frac{1}{2}}} \) ist der obere ath-Perzentilpunkt für die Verteilung des Maximalwerts von (k − 1) gleich korrelierten N(0,1) Zufallsvariablen mit gemeinsamer Korrelation \( \rho ={\scriptscriptstyle \frac{1}{2}}. \) Die Prozedur hat eine asymptotische familienweise Fehlerrate gleich α .
Für N × N Vergleiche bedeutet dies, dass die Kovarianz der Rangsummendifferenzen gleich der Kovarianz der Differenzen zwischen k unabhängigen Zufallsvariablen mit Mittelwert Null und Varianzen nk(k + 1)/12 ist. Somit fällt die asymptotische Verteilung von \( max\left\{\left |{R}_i-{R}_j\right |\right\} /\sqrt{nk\left(k+1\right) /12} \) mit der Verteilung des Bereichs (Q k,∞) von k unabhängigen N (0, 1) Zufallsvariablen zusammen. Die zugehörige Teststatistik ist CD Q, wobei die Konstante q α, df = k,∞ der obere ath-Perzentilpunkt der studentisierten Bereichsverteilung (q) mit (k, ∞) Freiheitsgraden ist. Da der Test die absolute Differenz aller k Gruppen gleichzeitig berücksichtigt, ist die asymptotische familienweise Fehlerrate gleich α .
Aus dem statistischen Friedman-Test selbst ergibt sich der in der untersten Zeile der Tabelle 2 erwähnte Simultantest. Die Nullhypothese wird akzeptiert, wenn die Differenz der Rangsummen den kritischen Wert \( C{D}_{\chi^2} nicht überschreitet. Diese asymptotische Chi-Quadrat-Approximation wird in einigen populären Lehrbüchern empfohlen, obwohl Miller argumentiert hat, dass die Wahrscheinlichkeitsaussage nicht der schärfste Test ist.
Statistische Potenz und alternative Tests
Beachten Sie, dass die in Tabelle 2 dargestellten CD-Teststatistiken keine Informationen über die im Experiment ermittelten blockinternen Ränge erfordern. Vielmehr gehen die gleichzeitigen Rangtests alle davon aus, dass innerhalb jedes Blocks jede Beobachtung mit gleicher Wahrscheinlichkeit einen verfügbaren Rang hat. Wenn dies zutrifft, ist die Menge (k + 1) (k − 1) / 12 die Varianz der Ranglisten innerhalb des Blocks und nk (k + 1) / 6 die Varianz der Differenz zwischen zwei beliebigen Rangsummen . Daher hat die Nullverteilung von d in der Grundgesamtheit den Mittelwert Null und die bekannte Standardabweichung. Genau aus diesem Grund verwenden die normalen approximativen Tests den Z-Score als Teststatistik. Es ist jedoch wichtig, in diesem Zusammenhang zu betonen, dass die Quadratwurzel von nk (k + 1) / 6 die Standardabweichung von d ist, wenn die gesamte Nullhypothese wahr ist, aber nicht, wenn sie falsch ist. Es gilt, ähnlich wie p-Werte, nur in einem bestimmten Modell, dh H 0; ein Modell, das wahr sein kann oder nicht. Wenn die Nullhypothese falsch ist, ist die Größe nk (k + 1) / 6 typischerweise eine Überschätzung der Varianz, und dies führt dazu, dass gleichzeitige Tests, ungefähr und genau, an Leistung verlieren.
Es stehen paarweise Vergleichstests für Friedman-Rangsummen zur Verfügung, die auf der Grundlage der beobachteten Rangwerte und nicht der Rangsummen berechnet werden. Diese Tests, wie der Rosenthal-Ferguson-Test und der beliebte Conover-Test , verwenden den t-Score als Teststatistik. Die paarweisen t-Tests sind oft leistungsfähiger als die oben diskutierten simultanen Tests, es gibt jedoch auch Nachteile. Kurz gesagt, der Rosenthal-Ferguson-Test verwendet die beobachteten Varianzen und die Kovarianz der Rangwerte jedes einzelnen Gruppenpaares, um einen Standardfehler von d für den Signifikanztest der paarweisen Rangsummendifferenz zu erhalten. Dieser Standardfehler gilt unabhängig davon, ob die Nullhypothese ohne paarweise Differenz wahr ist oder nicht. Neben der formalen Einschränkung des Tests, dass n größer als k + 1 sein sollte, kann die Varianz von d jedoch schlecht geschätzt werden, da in Friedman-Testanwendungen mit kleiner Stichprobe typischerweise nur wenige Freiheitsgrade für die (Co-) Varianzschätzung verfügbar sind. Darüber hinaus sind die beobachteten (Co-) Varianzen für jedes Gruppenpaar unterschiedlich. Folglich folgt aus der Signifikanz einer Differenz einer gegebenen Rangsumme A von einer anderen Rangsumme B nicht, dass eine dritte Rangsumme C, die von A unterschiedlicher ist als B, ebenfalls signifikant verschieden wäre. Dies ist ein unangenehmes Merkmal des Tests.
Der Conover-Test schätzt die Standardabweichung von d, indem er einen gepoolten Standardfehler aus den (Co-) Varianzen der beobachteten Rank-Scores aller Gruppen berechnet und so die statistische Aussagekraft erhöht. Die Methode ähnelt dem LSD-Test (Protected Least Significant Difference) von Fisher, der auf Ranglisten angewendet wird. Bei dieser Methode werden die p-Werte nicht für mehrere Tests angepasst, um die familienweise Fehlerrate auf dem nominalen Signifikanzniveau zu erhalten. Vielmehr ist der Test in dem Sinne geschützt, dass keine paarweisen Vergleiche durchgeführt werden, es sei denn, die gesamte Teststatistik ist signifikant. Wie beim Fisher-geschützten LSD-Verfahren hat der Conover-Test die Eigenschaft, den beobachteten F-Wert des Gesamttests in den inferentiellen Entscheidungsprozess einzubeziehen. Im Gegensatz zum Fisher-geschützten LSD, der den beobachteten F-Wert nur in einer 0-1 (‚go / no go‘) -Weise verwendet, verwendet der Conover-Test den F-Wert in einer glatten Weise bei der Berechnung des LSD. Das heißt, es hat die ungewöhnliche Eigenschaft, dass je größer die gesamte Teststatistik ist, desto kleiner ist der Schwellenwert für die am wenigsten signifikante Differenz, um eine Rangsummendifferenz als signifikant zu deklarieren. Der Duncan-Waller-Test hat dieselbe Eigenschaft, aber dieser Test befürwortet einen Bayesschen Ansatz für Mehrfachvergleiche mit Bayes-LSD. Da die Vergleichstests in der zweiten Stufe vom Ergebnis der ersten Stufe abhängig sind, hat der nominale Alpha-Pegel, der im paarweisen Conover-Test verwendet wird, keine wirkliche probabilistische Bedeutung im frequentistischen Sinne. Wie von Conover und Iman bemerkt (: 2), „Da das α-Niveau des Tests der zweiten Stufe normalerweise nicht bekannt ist, handelt es sich nicht mehr um einen Hypothesentest im üblichen Sinne, sondern lediglich um einen geeigneten Maßstab für die Trennung einiger Behandlungen von anderen.“
Exakte Verteilung und schnelle p-Wert-Berechnung
Wir präsentieren einen exakten Test zum gleichzeitigen paarweisen Vergleich von Friedman-Rangsummen. Die genaue Nullverteilung wird mit der Methode der wahrscheinlichkeitsgenerierenden Funktion bestimmt. Generierungsfunktionen bieten eine elegante Möglichkeit, Wahrscheinlichkeits- oder Häufigkeitsverteilungen von verteilungsfreien Teststatistiken zu erhalten . Die Anwendung der generierenden Funktionsmethode führt zu folgendem Satz, dessen Beweis in der zusätzlichen Datei 1 enthalten ist.
Satz 1 Für n voneinander unabhängige ganzzahlige Ranglisten mit jeweils gleich wahrscheinlichen Ranglistenwerten von 1 bis k ist die genaue Wahrscheinlichkeit, die paarweise Differenz d für zwei beliebige Rangsummen zu erhalten, gleich
wo
ist die Anzahl der auf unterschiedliche Weise kann eine Rangsummendifferenz von d entstehen, wobei d Unterstützung für d = hat.
Zusätzliche Datei 1 bietet auch einen geschlossenen Ausdruck für den genauen p-Wert von d. Der p-Wert ist definiert als die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete, vorausgesetzt, die Nullhypothese ist wahr. Es ergibt sich als Summe der Wahrscheinlichkeiten aller möglichen d für dasselbe k und n, die genauso wahrscheinlich oder weniger wahrscheinlich sind als der beobachtete Wert von d unter der Null. Der genaue p-Wert wird mit P(D ≥ d) bezeichnet; k, n), und es wird mit dem Ausdruck
Die Berechnung des exakten p-Wertes mit diesem Dreifachsummierungsausdruck bietet eine Beschleunigung von Größenordnungen über die vollständige Aufzählung aller möglichen Ergebnisse und ihrer Wahrscheinlichkeiten durch einen Brute-Force-Permutationsansatz. Für größere Werte von n ist die genaue Berechnung jedoch etwas zeitaufwendig, und um den praktischen Bereich für die Durchführung genauer Tests zu erweitern, ist es wünschenswert, den p-Wert effizienter zu berechnen.Da es sich in der Praxis bei Mehrfachvergleichstests auch um absolute Differenzen handelt, ist es zweckmäßig, die kumulative Wahrscheinlichkeit des Absolutwerts von Differenzen in Rangsummen zu berechnen. Da die Anzahl der Massenpunkte der symmetrischen Verteilung von d eine ganze Zahl der Form 2n(k − 1) + 1 ist, hat die Verteilung eine ungerade Anzahl von Wahrscheinlichkeiten. Dies impliziert, dass, da die Wahrscheinlichkeitsmassenfunktion von d symmetrisch um Null ist, die Wahrscheinlichkeitsmasse links von d = 0 umgeklappt werden kann, was zu einer gefalteten Verteilung von nicht negativem d führt. Folglich kann der einseitige p-Wert des nicht negativen d im Bereich d = 1, …, n(k – 1) als Summe der beiden einseitigen p-Werte der symmetrischen Verteilung mit Unterstützung d = erhalten werden. Da die Verdoppelung des einseitigen p-Wertes zu einem p-Wert für d = 0 führt, der die Einheit überschreitet, wird der p-Wert für d = 0 (nur) als P(D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1) berechnet, und dies ist genau gleich 1.
Um die Berechnung zu beschleunigen, transformieren wir die doppelte Summation über die Indizes i und j im Ausdruck für P(D ≥ d; k, n) in eine Summation über einen einzelnen Index, z. B. mit Satz 2. Der Beweis ist in der zusätzlichen Datei 2 angegeben.
Satz 2 Für nichtnegative ganze Zahlen d und k
Diese Reduktion auf eine Einfachsummenfunktion impliziert, dass der p-Wert alternativ aus dem viel einfacheren Ausdruck
und, wie wir zeigen werden, auch für größere Werte von n rechnerisch schnell.
Softwareimplementierung
Obwohl die beiden Ausdrücke für den exakten p-Wert mathematisch korrekt sind, kann eine einfache Berechnung zu Berechnungsfehlern führen. Selbst für moderate Werte von n (20 oder so) kann der Binomialkoeffizient, der d in den Indizes hat, extrem groß werden, und das Speichern dieser Zahlen für die nachfolgende Multiplikation erzeugt einen numerischen Überlauf aufgrund der Präzisionsbeschränkung der Arithmetik mit fester Genauigkeit. Eine Möglichkeit, diesen Fehler zu beheben, besteht darin, eine Wiederholungsbeziehung zu verwenden, die die generierende Funktion erfüllt. Eine schnellere Möglichkeit, den genauen p-Wert korrekt zu berechnen, besteht darin, arithmetische Berechnungen mit beliebiger Genauigkeit zu verwenden, um mit Zahlen umzugehen, die beliebig groß sein können und nur durch den verfügbaren Computerspeicher begrenzt sind.
Die Berechnung des p-Wertes der absoluten Rangsummendifferenz d bei k und n ist in R implementiert. Der R-Code, der die Installation des Pakets Rmpfr für hochpräzise Arithmetik erfordert, befindet sich in der zusätzlichen Datei 3. Das Skript mit der Bezeichnung pexactfrsd berechnet den genauen p-Wert P (D ≥ |d |) und bietet zusätzlich die Möglichkeit, die Wahrscheinlichkeit P (D = | d |) und die (kumulative) Anzahl der Zusammensetzungen von d (d. h. W (D = | d |) und W (D ≥ | d |)) zu berechnen. Der R-Code und mögliche zukünftige Updates sind auch unter http://www.ru.nl/publish/pages/726696/friedmanrsd.zip verfügbar.
Um die Ableitungen zu veranschaulichen, bietet die zusätzliche Datei 4 ein kleines numerisches Beispiel (k = 3, n = 2), und die zusätzliche Datei 5 tabelliert die Anzahl der Zusammensetzungen von d für Kombinationen von k = n = 2, …,6, für die Aufnahme in die OEIS . Wie in der zusätzlichen Datei 5 zu sehen ist, ist für kleine Werte von n die entfaltete, symmetrische Verteilung von d bimodal mit Moden bei + 1 und − 1 . Dieses Merkmal verschwindet schnell, wenn n zunimmt, insbesondere für k > 2 bei n ≥ 6.Im Folgenden betrachten wir, sofern nicht anders angegeben, den Wert der Summendifferenz d entweder als Null oder positiv, im Bereich von 0 bis n (k − 1), und lassen somit das Absolutwertsymbol um d fallen.
Unvollständige Ranglisten
Da die n Ranglisten {1,2, …,k} voneinander unabhängig sind, können wir sie in zwei (oder mehr), gleich oder ungleich große Teile teilen, die mit (D 1; k, n 1) und (D 2; k, n 2) bezeichnet sind, wobei ∑ 2 t = 1 D t = D ist und D t die Unterschiede in den Rangsummen der beiden Teile bezeichnet. Der genaue p-Wert kann erhalten werden mit
wobei – wie durch die untere Grenze der Summation angezeigt – die Berechnung unter Verwendung des p-Wert-Ausdrucks durchgeführt wird, der negatives d ermöglicht. Eine einzigartige und nützliche Eigenschaft der exakten Methode, die von den diskutierten ungefähren Methoden nicht geteilt wird, ist, dass es einfach ist, p-Wert-Wahrscheinlichkeiten für Designs mit ungleichen Blockgrößen k zu berechnen; z. B. Designs, bei denen n 1 die Ränge {1, 2, …, k 1} und n 2 die Ränge {1, 2, …, k 2}, mit k 1 ≠ k 2. Ein allgemeiner Ausdruck zur Berechnung des exakten p-Wertes in unvollständigen Konstruktionen mit j ungleich großen Teilen ist
wobei ∑ j t = 1 D t = D, und ein Beispiel, in dem n in drei Teile unterteilt ist, die jeweils einen eindeutigen Wert von k (k 1, k 2, k 3) haben, ist
Obwohl die Summenfunktionen die Berechnung verlangsamen, ermöglicht diese einzigartige Funktion der exakten p-Wert-Berechnung die Durchführung gültiger simultaner Signifikanztests, wenn einige Ränge innerhalb des Blocks konstruktionsbedingt fehlen. Solche Tests wären mit einer der Näherungsmethoden mit großen Stichproben schwer zu bewerkstelligen. Ein empirisches Beispiel wird im Anwendungsbereich gegeben.
Genaue und mittlere p-Werte
Da paarweise Differenzen mit Unterstützung von d = unter H 0 symmetrisch um Null verteilt sind, ist der einseitige p-Wert die natürlichste und beliebteste Wahl für einen gewöhnlichen exakten Test. Ein Test mit exaktem p-Wert garantiert, dass die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen, das nominale Signifikanzniveau nicht überschreitet. Da die Typ-I-Fehlerrate jedoch immer unter dem Nennwert liegt, ist ein Signifikanztest mit genauem p-Wert ein konservativer Testansatz, insbesondere wenn der Test eine hochdiskrete Verteilung beinhaltet . Der mittlere p-Wert, allgemein definiert als die Hälfte der Wahrscheinlichkeit einer beobachteten Statistik plus die Wahrscheinlichkeit extremerer Werte, d. H.
dieses Problem. Der mittlere p-Wert liegt immer näher am Nennwert als der genaue p-Wert, auf Kosten der gelegentlichen Überschreitung der Nenngröße.
Tied rankings
Der mittlere p-Wert kann auch verwendet werden, um tied Rankings zu behandeln. Wenn Bindungen innerhalb von Blöcken auftreten, wird der Midrank (d. H. Der Durchschnitt der Ränge) üblicherweise jedem gebundenen Wert zugewiesen. Wenn als Ergebnis gebundener Ränge die beobachtete Rangsummendifferenz ein ganzzahliger Wert d plus 0,5 ist, kann der p-Wert als Mittelwert der exakten p-Werte der benachbarten ganzen Zahlen d und d + 1 erhalten werden, d. h. \({\scriptscriptstyle \frac {1}{2}}\left, \) und dies entspricht dem mittleren p-Wert. Es ist zu beachten, dass die resultierende Wahrscheinlichkeit nicht genau gültig ist. Genaue p-Werte stellen genaue Frequenzwahrscheinlichkeiten bestimmter Ereignisse dar, und mittlere p-Werte haben keine solche Frequenzinterpretation. Es kann jedoch argumentiert werden, dass dieser Interpretationsnachteil von geringer praktischer Bedeutung ist und dass die Verwendung mittlerer p-Werte ein nahezu exakter Frequenzansatz ist. Eine Diskussion über andere Behandlungen von Bindungen in Rangtests, sehen .