Esatto valori di p per coppie confronto di Friedman rango somme, con applicazione a confronto classificatori
Friedman dati
Per eseguire il test di Friedman i dati osservati sono disposti in forma di una comunicazione a due vie layout, come in Tabella 1, dove k righe rappresentano i gruppi (classificatori) e n colonne rappresentano i blocchi (dataset).
I dati sono costituiti da n blocchi con k osservazioni all’interno di ciascun blocco. Si presume che le osservazioni in diversi blocchi siano indipendenti. Questa ipotesi non si applica alle osservazioni k all’interno di un blocco. La procedura di test rimane valida nonostante le dipendenze all’interno del blocco . La statistica del test di Friedman è definita sui dati classificati, quindi a meno che i dati grezzi originali non siano punteggi di rango a valore intero, i dati grezzi vengono trasformati in classifica. Le voci di rango nella Tabella 1B sono ottenute ordinando prima i dati grezzi {x ij; i = 1, …, n, j = 1, k, k} nella Tabella 1A in colonna dal minimo al massimo, all’interno di ciascuno dei blocchi n separatamente e indipendentemente, e quindi assegnare gli interi 1,…, k come punteggi di rango delle osservazioni k all’interno di un blocco. La somma di riga dei ranghi per qualsiasi gruppo j è la somma di rango definita come R j = n n i = 1 r ij .
Ipotesi nulla
L’ipotesi nulla generale del test di Friedman è che tutti i campioni bloccati da k, ciascuno di dimensione n, provengano da distribuzioni di popolazione identiche ma non specificate. Per specificare questa ipotesi nulla in modo più dettagliato, sia X ij denotare una variabile casuale con sconosciuta funzione di distribuzione cumulativa F ij, e sia x ij denotare la realizzazione di X ij .
L’ipotesi nulla può essere definita in due modi, a seconda che i blocchi siano fissi o casuali . Se i blocchi sono fissi, tutti i valori di misurazione k × n sono indipendenti. Se ci sono gruppi k assegnati casualmente per contenere k X ij non correlati all’interno di ciascun blocco, come in un progetto di blocco completo randomizzato, allora l’ipotesi nulla che i gruppi k abbiano distribuzioni identiche può essere formulata come
H 0 : F i1(x) = F = F ik (x) = F i (x) per ogni i = 1,…, n,
dove F i (x) è la distribuzione delle osservazioni nel blocco ith . La stessa ipotesi, ma più specifica, si ottiene se si presume che il solito modello additivo abbia generato l’x ij nel layout bidirezionale . Il modello additivo scompone l’effetto totale sul valore di misurazione in un effetto complessivo μ, effetto blocco i β i e effetto gruppo j τ j . Se la funzione di ripartizione è indicata come F ij (x) = F(x − µ − β i − τ j ), l’ipotesi nulla di assenza di differenze tra i k gruppi può essere indicato come
e il generale di ipotesi alternative, come
\( {H}di 1:\kern0.5em {\tau}_{j_1}\ne {\tau}_{j_2} \) per almeno un (j 1, j 2) coppia.
si noti che questa rappresentazione afferma anche che la distribuzione sottostante funzioni F i1(x), …, F ik (x) all’interno del blocco sono le stesse, cioè, che F i1(x) = … = F ik (x) = F i (x), per ogni fissato i = 1, …, n.
Se i blocchi sono casuali, le misure dalla stessa casuale blocco positivamente correlati. Ad esempio, se un singolo soggetto forma un blocco e le osservazioni k vengono fatte sull’argomento, possibilmente in ordine randomizzato, le osservazioni all’interno del blocco dipendono. Tale dipendenza si verifica in un progetto di misure ripetute in cui vengono osservati n soggetti e ciascun soggetto viene testato in condizioni K. Denota la funzione di distribuzione congiunta delle osservazioni all’interno del blocco i per F i (x 1, …, x k ). Quindi l’ipotesi nulla di assenza di differenze tra i k gruppi è l’ipotesi della possibilità di cambio di variabili casuali X i1, …, X ik , formulato come
H 0 : F i (x 1, …, x k ) = F i (x, s(1), …, x σ(k)) per i = 1, …, n,
dove σ(1), …, s(k) indica qualsiasi permutazione di 1, …, k. Il modello alla base di questa ipotesi è che le variabili casuali X ij hanno una distribuzione scambiabile. Questo è un modello adatto per misure ripetute, dove non è appropriato assumere l’indipendenza all’interno di un blocco . Notiamo anche che questa formulazione dell’ipotesi nulla e quella per i blocchi fissi sono coerenti con la stessa alternativa, vale a dire la negazione di H 0. Per una discussione dettagliata di questo argomento, vedi .
Se i blocchi sono fissi o casuali, se l’ipotesi nulla è vera, allora tutte le permutazioni di 1, k, k sono ugualmente probabili. Ci sono k ! possibili modi per assegnare punteggi k rango ai gruppi k all’interno di ogni blocco e tutte queste permutazioni intra-blocco sono equiprobable sotto H 0. Poiché lo stesso argomento di permutazione si applica a ciascuno dei blocchi indipendenti n, ci sono (k !) n configurazioni di rango altrettanto probabili dei punteggi di rango r ij nel layout a due vie . Ognuna di queste permutazioni ha una probabilità di (k !)- n di essere realizzato. Questa funzione viene utilizzata per valutare la distribuzione nulla delle somme di rango rj, enumerando tutte le permutazioni del layout bidirezionale dei ranghi.
Statistica del test di Friedman
Sotto l’ipotesi nulla di Friedman, la somma di fila prevista dei ranghi per ciascun gruppo è uguale a n(k + 1) / 2. Il test di Friedman statistica
somma dei quadrati delle deviazioni dell’osservato rango somme per ogni gruppo, R j , dal comune, il valore atteso per ogni gruppo, n(k + 1)/2, sotto l’ipotesi che il gruppo k distribuzioni sono identici. Per piccoli valori di k e n, la distribuzione esatta di X 2 r è stata presentata, ad esempio, da Friedman . Un algoritmo per calcolare l’esatta distribuzione congiunta delle somme di Friedman rank sotto il null è discusso in . Per il caso speciale di due campioni accoppiati, vedere .
Calcolo della statistica di test utilizzando la distribuzione null del (k !) n possibili permutazioni richiedono molto tempo se k è grande. Tuttavia, Friedman ha mostrato che come n tende all’infinito, X 2 r converge nella distribuzione a χ 2 df = k − 1 , una variabile casuale chi-quadrata con k − 1 gradi di libertà. Questo risultato viene utilizzato nel test di Friedman asintotico. Il test di Friedman rifiuta H 0 a un livello di significatività pre-specificato α quando la statistica del test X 2 r supera il 100 (1-α)th percentile della distribuzione chi − quadrata limitante di X 2 r con k-1 gradi di libertà . La statistica del test deve essere regolata se ci sono ranghi legati all’interno dei blocchi . Inoltre, sono state proposte varie modifiche del test di Friedman, ad esempio la distribuzione F come alternativa alla distribuzione chi-quadrato , così come generalizzazioni, come la statistica del test di Skillings-Mack per l’uso in presenza di dati mancanti. Questi e vari altri aggiustamenti e concorrenti non parametrici al test di Friedman (ad esempio, Kruskal-Wallis, Quade, test di ranghi allineati di Friedman) non sono discussi qui (vedi ).
Test di confronto a coppie e differenza critica approssimativa
Spesso, i ricercatori non sono interessati solo a testare l’ipotesi globale dell’uguaglianza dei gruppi, ma anche, o ancora di più, nell’inferenza sull’uguaglianza di uguaglianza di coppie di gruppi. Inoltre, anche se si è interessati principalmente a H 0 e l’ipotesi viene respinta, può essere condotta un’analisi di follow-up per determinare le possibili ragioni del rifiuto. Tale analisi può rivelare differenze di gruppo, ma potrebbe anche rivelare che nessuna delle coppie è significativamente diversa, nonostante un risultato del test globalmente significativo.
Per affrontare questi problemi è opportuno testare ipotesi di uguaglianza per coppie di gruppi utilizzando test di confronto simultanei. Queste procedure di confronto multiplo possono comportare, in confronti 1 × N (o molti-uno), testare ipotesi k − 1 di uguaglianza di tutti i gruppi non di controllo rispetto al controllo dello studio o, in confronti N × N (tutte le coppie), considerando ipotesi k(k-1)/2 di uguaglianza tra tutte le coppie di gruppi. Per entrambi i tipi di confronti, sono stati progettati test approssimativi su campioni di grandi dimensioni. Sono derivati per la situazione in cui n, il numero di blocchi (cioè, ‘dimensione del campione’), è grande.
La tabella 2 mostra i test approssimativi di differenza critica (CD) per i confronti 1 × N e N × N delle somme di Friedman rank, come raccomandato in monografie e articoli molto citati e libri di testo popolari sulle statistiche non parametriche. La differenza critica è la differenza minima richiesta in somme di rango per una coppia di gruppi di differire al livello alfa pre-specificato di significatività. È da notare che in molte pubblicazioni la statistica CD è calcolata utilizzando la differenza nelle medie di somma di rango, cioè rj /n, piuttosto che somme di rango. I risultati sono identici, poiché ogni gruppo ha n osservazioni, se le formule statistiche del test vengono modificate in modo appropriato.
Quando l’ipotesi nulla di equidistribution di truppa in n classifiche indipendenti è vero, e la condizione di un campione di grandi dimensioni è incontrato, le differenze di rango somme sono circa distribuiti normalmente . Sia d = R i-R j, con i j j, la differenza di somma di rango tra una coppia di gruppi i e j. Il supporto della differenza di somma di rango d è la chiusura . Sotto l’ipotesi nulla, il valore atteso E ( d) = 0 e la varianza Var(d) = nk(k + 1)/6 . Poiché la distribuzione di d è simmetrica attorno a E (d) = 0, l’asimmetria è zero, così come tutti i momenti di ordine dispari. Il coefficiente di curtosi, derivato da Whitfield come
è inferiore a 3 (cioè, kurtosi in eccesso negativa), implicando che la distribuzione discreta della somma di rango ha code più sottili di il normale. Si noti, tuttavia, che la curtosi tende a 3 con l’aumento di n, quindi un’approssimazione normale è ragionevole. Ciò implica che d ha una distribuzione asintotica N(0, Var(d)) e che la deviazione normale \( d/\sqrt{\mathrm{Var}(d)} \) è asintoticamente N(0, 1).
Come si può vedere nella Tabella 2, il normale test approssimativo è raccomandato da vari autori quando tutti i gruppi devono essere confrontati l’uno con l’altro a coppie. Viene anche discusso da Demšar come una statistica di test da utilizzare quando tutti i gruppi vengono confrontati con un singolo controllo. Si noti che le normali procedure di test controllano il tasso di errore di tipo I familiare dividendo il livello complessivo di significatività α per il numero di confronti eseguiti (cioè, c 1 in 1 × N e c 2 in confronti N × N). Ci sono concorrenti più potenti per questa correzione di tipo Bonferroni disponibili, come le procedure Holm, Hochberg e Hommel. Questi metodi per controllare il tasso di errore complessivo falso positivo non sono elaborati in questo documento. Per un tutorial nel regno del confronto dei classificatori, vedi Derrac et al. .
Oltre all’approssimazione normale ordinaria, sono stati proposti test simultanei che sfruttano la struttura di covarianza della distribuzione dei valori delle differenze nelle somme di rango. Considerando che le classifiche n sono reciprocamente indipendenti sotto H 0, le somme di rango e le differenze di somma di rango sono dipendenti e correlati pure. La correlazione tra le differenze di somma di rango dipende dalle somme di rango coinvolte. In particolare, come riportato da Miller , quando l’ipotesi nulla è vera
Quindi, la correlazione è pari a zero per le coppie di rango somma differenze con nessun gruppo in comune, e 0,5 per le coppie di differenze con un gruppo in comune per le due differenze. Il numero di coppie correlate diminuisce all’aumentare di K. Per uno studio che coinvolge gruppi k, la proporzione di coppie correlate è uguale a 4 / (k + 1). Quindi quando k = 7, ad esempio, il 50% delle coppie è correlato, ma quando k = 79 solo il 5% è correlato.
Come notato in vari studi (ad esempio, ), per i confronti 1 × N questa struttura di correlazione implica che, quando H 0 è vero e n tende all’infinito, la distribuzione delle differenze tra le somme di rango del gruppo k − 1 e la somma di rango di controllo coincide con una distribuzione normale asintotica (k − 1) variata con zero media. La differenza fondamentale valore può quindi essere approssimata da una statistica test con etichetta CD M nella Tabella 2, dove la costante \( {m}_{\alpha, df= k-1,\rho ={\scriptscriptstyle \frac{1}{2}}} \) è superiore ath ° percentile della distribuzione del valore massimo di (k − 1) allo stesso modo correlata N(0,1) variabili casuali con il comune di correlazione di \( \rho ={\scriptscriptstyle \frac{1}{2}}. \ ) La procedura ha un tasso di errore familiare asintotico uguale a α .
Per i confronti N × N, significa che la covarianza delle differenze di somma di rango è uguale alla covarianza delle differenze tra k variabili casuali indipendenti con mezzi zero e varianze nk(k + 1) / 12. Quindi, la distribuzione asintotica di \ (max \ left \ {\left / {R}_i-{R} _j\right|\right\}/\sqrt{nk\left( k+1\right)/12}\) coincide con la distribuzione dell’intervallo (Q k,∞) di k indipendente N(0, 1) variabili casuali. La statistica di test associata è CD Q, dove la costante q α, df = k,∞ è il punto percentile ath superiore della distribuzione dell’intervallo studentizzato (q) con (k,∞) gradi di libertà . Ancora una volta, poiché il test considera la differenza assoluta di tutti i gruppi k contemporaneamente, il tasso di errore familiare asintotico è uguale a α .
Lo stesso test statistico di Friedman dà luogo al test simultaneo menzionato nella riga inferiore della tabella 2. L’ipotesi nulla è accettata se la differenza nelle somme di rango non supera il valore critico \ (C {D} _ {\chi^2}. \ ) Questa approssimazione asintotica del chi quadrato è raccomandata in alcuni libri di testo popolari, anche se Miller ha sostenuto che l’istruzione di probabilità non è il più acuto dei test.
Potenza statistica e test alternativi
Si noti che le statistiche dei test CD presentate nella Tabella 2 non richiedono informazioni sui ranghi all’interno del blocco come determinato nell’esperimento. Piuttosto, i test di rango simultanei presuppongono tutti che all’interno di ciascun blocco ogni osservazione abbia ugualmente probabilità di avere un rango disponibile. Quando questo è vero, la quantità (k + 1) (k − 1)/12 è la varianza delle classifiche all’interno del blocco e nk (k + 1)/6 la varianza della differenza tra due somme di rango . Quindi la distribuzione nulla di d nella popolazione ha media zero e deviazione standard nota. Questo è il motivo preciso per cui i normali test approssimativi utilizzano lo z-score come statistica di test. Tuttavia, è importante sottolineare in questo contesto che la radice quadrata di nk(k + 1)/6 è la deviazione standard di d quando l’ipotesi nulla complessiva è vera, ma non quando è falsa. Tiene, simile ai valori p, solo in un particolare modello, cioè H 0; un modello che può o non può essere vero. Se l’ipotesi nulla è falsa, la quantità nk(k + 1)/6 è tipicamente una sovrastima della varianza, e questo fa sì che i test simultanei, approssimativi ed esatti, perdano potenza.
Sono disponibili test di confronto a coppie per somme di rango Friedman calcolate sui punteggi di rango osservati piuttosto che sulle somme di rango. Questi test , come il test Rosenthal-Ferguson e il popolare test Conover, utilizzano il t-score come statistica di prova. I test t a coppie sono spesso più potenti dei test simultanei discussi sopra, tuttavia ci sono anche degli svantaggi. In breve, il test di Rosenthal-Ferguson utilizza le varianze osservate e la covarianza dei punteggi di rango di ogni singola coppia di gruppi, per ottenere un errore standard di d per il test di significatività della differenza di somma di rango a coppie. Questo errore standard è valido se l’ipotesi nulla di nessuna differenza a coppie è vera o meno. Tuttavia, accanto al vincolo formale del test che n dovrebbe essere più grande di k + 1, la varianza di d può essere stimata male, poiché in genere ci sono pochi gradi di libertà disponibili per la stima della varianza (co)nelle applicazioni di test di Friedman su piccoli campioni. Inoltre, le varianze (co)osservate sono diverse per ogni coppia di gruppi. Di conseguenza, non deriva dal significato di una differenza di una data somma di rango A da un’altra somma di rango B, che una terza somma di rango C, più diversa da A di B, sarebbe anche significativamente diversa. Questa è una caratteristica spiacevole del test.
Il test Conover stima la deviazione standard di d calcolando un errore standard aggregato dalle (co)varianze dei punteggi di classifica osservati di tutti i gruppi, aumentando così la potenza statistica. Il metodo è simile al test LSD (Protected Least Significant Difference) di Fisher, applicato ai punteggi di rango. In questa metodologia, non viene apportato alcun aggiustamento per test multipli ai valori p per preservare il tasso di errore familywise al livello nominale di significatività. Piuttosto, il test è protetto nel senso che non vengono eseguiti confronti a coppie a meno che la statistica complessiva del test non sia significativa. Come nella procedura Fisher protected LSD, il test Conover ha la proprietà di incorporare il valore F osservato del test complessivo nel processo decisionale inferenziale. Tuttavia, in contrasto con l’LSD protetto da Fisher, che utilizza il valore F osservato solo in modo 0-1 (‘go/no go’), il test Conover utilizza il valore F in modo uniforme quando si calcola l’LSD. Cioè, ha la caratteristica insolita che maggiore è la statistica complessiva del test, minore è la soglia di differenza meno significativa per dichiarare significativa una differenza di somma di rango. Il test Duncan-Waller ha questa stessa caratteristica, ma questo test sostiene un approccio bayesiano a confronti multipli con Bayes LSD. Poiché i test di confronto nella seconda fase sono condizionati al risultato della prima fase, il livello alfa nominale utilizzato nel test Conover a coppie non ha alcun significato probabilistico reale in senso frequentista. Come notato da Conover e Iman (: 2), ” Poiché il livello α del test del secondo stadio non è solitamente noto, non è più un test di ipotesi nel senso comune, ma piuttosto semplicemente un metro conveniente per separare alcuni trattamenti da altri.”
Distribuzione esatta e calcolo rapido del valore p
Presentiamo un test esatto per il confronto simultaneo a coppie delle somme di Friedman rank. L’esatta distribuzione null viene determinata utilizzando il metodo probability generating function. Le funzioni di generazione forniscono un modo elegante per ottenere distribuzioni di probabilità o frequenza di statistiche di test senza distribuzione . L’applicazione del metodo della funzione generatrice dà origine al seguente teorema, la cui dimostrazione è nel file aggiuntivo 1.
Teorema 1 Per n reciprocamente indipendenti a valori interi, classifiche, ognuno con la stessa probabilità di rango punteggi che vanno da 1 a k, l’esatta probabilità di ottenere coppie differenza d per due qualsiasi rango di somme di uguale
dove
è il numero di modi distinti in cui può sorgere una differenza di somma di rango di d, con d che ha supporto su d = .
Il file aggiuntivo 1 offre anche un’espressione in forma chiusa per l’esatto valore p di d. Il valore p è definito come la probabilità di ottenere un risultato almeno estremo come quello osservato, dato che l’ipotesi nulla è vera. Si ottiene come somma delle probabilità di tutti i possibili d, per gli stessi k e n, che sono più probabili o meno probabili del valore osservato di d sotto il null. Il valore p esatto è indicato come P (D ≥ d; k, n), ed è calcolato utilizzando l’espressione
Il calcolo del valore p esatto con questa espressione di somma tripla fornisce un’accelerazione di ordini di grandezza rispetto all’enumerazione completa di tutti i possibili risultati e delle loro probabilità mediante un approccio di permutazione a forza bruta. Per valori più grandi di n, tuttavia, il calcolo esatto richiede un po ‘ di tempo e per estendere l’intervallo pratico per eseguire test esatti, è consigliabile calcolare il valore p in modo più efficiente.
Inoltre, poiché in pratica più test di confronto riguardano differenze assolute, è opportuno calcolare la probabilità cumulativa del valore assoluto delle differenze nelle somme di rango. Poiché il numero di punti di massa della distribuzione simmetrica di d è un numero intero della forma 2n ( k − 1) + 1, la distribuzione ha un numero dispari di probabilità. Ciò implica che, poiché la funzione di massa di probabilità di d è simmetrica attorno allo zero, la massa di probabilità a sinistra di d = 0 può essere piegata, risultando in una distribuzione piegata di d non negativa. Di conseguenza, il valore p unilaterale di d non negativo nell’intervallo d = 1,…, n(k − 1) può essere ottenuto come somma dei due valori p unilaterali della distribuzione simmetrica con supporto d = . Poiché il raddoppio del valore p unilaterale porta a un valore p per d = 0 che supera l’unità, il valore p per d = 0 (solo) viene calcolato come P(D ≥ 0; k, n) = P(D = 0) + P(D ≥ 1), e questo è esattamente uguale a 1.
Per accelerare il calcolo, trasformiamo la doppia sommatoria sugli indici i e j nell’espressione per P(D ≥ d; k, n) in una sommatoria su un singolo indice, ad esempio, usando il Teorema 2. La prova è fornita nel file aggiuntivo 2.
Teorema 2 Per interi non negativi d e k
Questa riduzione a una funzione singly-sum implica che il valore p può essere calcolato alternativamente dall’espressione molto più semplice
e, come mostreremo, anche per valori più grandi di n in modo computazionalmente veloce.
Implementazione software
Sebbene le due espressioni per l’esatto valore p siano matematicamente corrette, un calcolo semplice può produrre errori di calcolo. Anche per valori moderati di n (20 o giù di lì), il coefficiente binomiale che ha d negli indici può diventare estremamente grande e la memorizzazione di questi numeri per la moltiplicazione successiva crea overflow numerico a causa della limitazione di precisione dell’aritmetica a precisione fissa. Un modo per risolvere questo errore è utilizzare una relazione di ricorrenza che soddisfi la funzione generatrice . Le ricorsioni che abbiamo esaminato erano tutte computazionalmente costose da eseguire, tuttavia, ad eccezione di piccoli valori di n e/o k. Un modo più veloce per calcolare correttamente l’esatto valore p è usare il calcolo aritmetico di precisione arbitraria per gestire numeri che possono essere di grandi dimensioni arbitrarie, limitate solo dalla memoria del computer disponibile.
Il calcolo del valore p della differenza assoluta di somma di rango d data k e n è implementato in R . Il codice R, che richiede l’installazione del pacchetto Rmpfr per l’aritmetica ad alta precisione, si trova nel file aggiuntivo 3. Lo script etichettato pexactfrsd calcola l’esatto valore p(D ≥ |d|) e offre inoltre la possibilità di calcolare la probabilità P (D = |d|) e il numero (cumulativo) di composizioni di d(cioè, W(D = |d|) e W (D ≥ |d|)). Il codice R e i potenziali aggiornamenti futuri sono disponibili anche su http://www.ru.nl/publish/pages/726696/friedmanrsd.zip.
Per illustrare le derivazioni, il file aggiuntivo 4 offre un esempio numerico di piccole dimensioni (k = 3, n = 2) e il file aggiuntivo 5 tabula il numero di composizioni di d per combinazioni di k = n = 2,…, 6,per l’inclusione nell’OEIS . Come si può vedere nel file aggiuntivo 5, per piccoli valori di n la distribuzione simmetrica dispiegata di d è bimodale, con modalità a + 1 e − 1 . Questa caratteristica scompare rapidamente quando n aumenta, in particolare per k > 2 a n ≥ 6.
Di seguito, se non diversamente specificato, considereremo il valore della differenza di somma di rango d come zero o positivo, compreso tra 0 e n(k − 1), e quindi abbasseremo il simbolo del valore assoluto attorno a d.
Classifiche incomplete
Poiché le classifiche n {1,2,…,k} sono reciprocamente indipendenti, possiamo dividerle in due (o più) parti di dimensioni uguali o disuguali, etichettate (D 1; k, n 1) e (D 2; k, n 2), con parts 2 t = 1 D t = D e D t che denotano le differenze nelle somme di rango delle due parti. L’esatto valore di p può essere ottenuto utilizzando
dove – come indicato dalla sommatoria del limite inferiore – calcolo viene effettuato utilizzando il p-value espressione che permette d negativa. Un unico e utile proprietà del metodo esatto, che non è condivisa dal approssimativa metodi discussi, è che è facile per calcolare il p-valore di probabilità per disegni con disparità di dimensioni del blocco di k; ad esempio, i progetti in cui n 1 è ranghi {1, 2, …, k 1}, e n 2 ranghi {1, 2, …, k 2}, con k 1 ≠ k 2. Una espressione generale per calcolare l’esatto valore di p incompleti e disegni con j disparità di dimensioni delle parti è
dove ∑ j t = 1 D t = D, e un esempio in cui n è suddiviso in tre parti, ciascuna con un unico valore di k (k 1, k 2, k 3), è
Sebbene le funzioni sum rallentino il calcolo, questa caratteristica unica del calcolo esatto del valore p consente di condurre test di significatività simultanei validi ogni volta che alcuni ranghi all’interno del blocco mancano in base alla progettazione. Tali test sarebbero difficili da realizzare utilizzando uno dei metodi di approssimazione di grandi campioni. Un esempio empirico sarà dato nella sezione Applicazione.
Valori p esatti e medi
Poiché le differenze a coppie con supporto su d = sono distribuite simmetricamente intorno allo zero sotto H 0, raddoppiare il valore p unilaterale è la scelta più naturale e popolare per un normale test esatto. Un test che utilizza il valore p esatto garantisce che la probabilità di commettere un errore di tipo I non superi il livello nominale di significatività. Tuttavia, poiché il tasso di errore di tipo I è sempre inferiore al livello nominale, un test di significatività con valore p esatto è un approccio conservativo al test, specialmente se il test comporta una distribuzione altamente discreta . La metà del valore di p, comunemente definita come la metà la probabilità di un osservato della statistica, più la probabilità di ulteriori valori estremi, vale a dire,
migliora il problema. Il valore p medio è sempre più vicino al livello nominale rispetto al valore p esatto, a scapito di superare occasionalmente la dimensione nominale.
Classifica legata
Il valore medio p può anche essere usato per gestire la classifica legata. Quando i legami si verificano all’interno dei blocchi, il midrank (cioè la media dei ranghi) viene comunemente assegnato a ciascun valore legato. Se, come risultato di ranghi legati, la differenza di somma di rango osservata è un valore intero d più 0.5, il valore p può essere ottenuto come la media dei valori p esatti degli interi adiacenti d e d + 1, cioè \( {\scriptscriptstyle \frac{1}{2}}\left, \) e questo è equivalente al valore p medio. È da notare che la probabilità risultante non è esattamente valida. I valori p esatti rappresentano le probabilità di frequenza esatte di determinati eventi e i valori p medi non hanno tale interpretazione di frequenza. Si può sostenere, tuttavia, che questo svantaggio interpretativo è di scarsa preoccupazione pratica e che l’utilizzo di valori medi di p è un approccio di frequenza quasi esatto. Per una discussione di altri trattamenti di legami nei test di rango, vedere .