Articles

friedmanランク合計のペアワイズ比較のための正確なp値、分類器の比較への適用

Friedmanデータ

friedman検定を実行するために、観測されたデータは、表1Aのように完全な双方向レイアウトの形で配置されます。ここで、k行はグループ(分類器)を表し、n列はブロック(データセット)を表します。

表1フリードマン検定の双方向レイアウト

データは、各ブロック内のk個の観測値を持つn個のブロックで構成されています。 異なるブロック内の観測値は、独立していると仮定されます。 この仮定は、ブロック内のk個の観測値には適用されません。 テスト手順は、ブロック内の依存関係にもかかわらず有効です。 フリードマン検定統計量はランク付けされたデータに定義されるため、元の生データが整数値のランクスコアでない限り、生データはランク変換されます。 表1Bのランクエントリは、最初に表1Aの生データ{x ij;i=1,…,n,j=1,…,k}を、n個のブロックのそれぞれ内で列ごとに個別に独立して並べ替え、次に整数1,…,kをブロック内のk個の観測値のランクスコアとして割り当てることによって得られます。 任意の群jのランクの行和は、R j=≤n i=1r ijとして定義されるランク和である。フリードマン検定の一般的な帰無仮説は、すべてのk個のブロックされたサンプル、サイズnのそれぞれが、同一ではあるが不特定の母集団分布から来 この帰無仮説をより詳細に指定するために、X ijが未知の累積分布関数F ijを持つ確率変数を示し、x ijがX ijの実現を示すとします。帰無仮説は、ブロックが固定されているかランダムであるかに応じて、2つの方法で定義できます。

帰無仮説は、ブロックが固定されているか ブロックが固定されている場合、すべてのk×n測定値は独立しています。 ランダム化完全ブロック計画のように、各ブロック内にk個の無関係なX ijを保持するようにランダムに割り当てられたk個のグループがある場合、k個のグループが同一の分布を持つという帰無仮説は、

H0:F i1(x)=…=F ik(x)=f i(x)for each i=1,…,n,

ここで、F i(x)はi番目のブロック内の観測値の分布です。 通常の加法モデルが双方向レイアウトでx ijを生成したと仮定すると、同じ仮説が得られますが、より具体的です。 加法モデルは、測定値に対する総効果を、全体効果γ、ブロックi効果β i、およびグループj効果γ jに分解する。 分布関数がF ij(x)=F(x−γ−β i−γ j)と表される場合、k群間の差がない帰無仮説は

≤{h}_0:\kern0.5em{\tau}_1=\dots={\tau}_k,≤

と表され、一般的な対立仮説は

\({h}_1:\kern0.5em{\tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_{tau}_少なくとも1つの(j1、j2)ペアの場合、{j_1}\ne{\tau}_{j_2}\)。

この表現は、ブロックi内の基礎となる分布関数F i1(x),…,F ik(x)が同じであること、すなわち、固定i=1,…,nごとにF i1(x)=…=F ik(x)=f i(x)であることを主張することに注意してください。

ブロックがランダムであれば、同じランダムブロックからの測定値は正の相関があります。

ブロックがランダムであれば、同じランダムブロックからの測定値は正の相関があります。

ブロックがランダムであれば、同じランダムブロックからの測定値は正の相関があります。

ブロックがランダムであれば、同じランダムブロックからの測定値は正の相関があります。

たとえば、単一の被験者がブロックを形成し、k個の観測が被験者に対してランダム化された順序で行われる場合、ブロック内の観測は依存します。 このような依存性は、n個の被験者が観察され、各被験者がk条件下で試験される反復測定計画において生じる。 ブロックi内の観測値の結合分布関数をF i(x1,…,x k)で表します。 このとき、k群間に差がないという帰無仮説は、確率変数X i1,…,x ikの交換可能性の仮説であり、

H0:F i(x1,…,x k)=F i(x∈(1),…,x∈(k))for i=1,…,n,

ここで、λ(1),…,λ(k)は1,…,kの任意の順列を表す。 この仮説の基礎となるモデルは、確率変数X ijが交換可能な分布を持つということです。 これは、ブロック内で独立性を仮定することが適切ではない反復測定に適したモデルです。 また、帰無仮説の定式化と固定ブロックに対する定式化は、同じ代替、すなわちH0の否定に対して一貫していることにも注意してください。 この問題の詳細な議論については、を参照してください。ブロックが固定されているかランダムであるかにかかわらず、帰無仮説が真である場合、1、…、kのすべての順列が同じ可能性があります。

Kがあります! 各ブロック内のkグループにkランクスコアを割り当てる可能な方法と、これらのすべてのブロック内順列は、H0の下で等確率可能です。 同じ順列引数がn個の独立したブロックのそれぞれに適用されるので、(k!)n双方向レイアウトにおけるランクスコアr ijのランク構成も同様に可能性が高い。 これらの順列のそれぞれは、(k!)-実現されているのn。 この機能は、ランクの双方向レイアウトのすべての順列を列挙することによって、ランク合計rjのヌル分布を評価するために使用されます。

フリードマン検定統計量

フリードマン帰無仮説の下では、各グループの期待される行のランクの合計はn(k+1)/2に等しくなります。

フリードマン検定統計量

フリードマン検定統計量

Fried sum_{j=1}k k{\left\{{r}_j-n\left(k+1\right)/2\right}=\sum_{j=1}k k{\left\{{r}_j-n\left(k+1\right)/2\right}=\Sum_{j=1}k k{\left\{{r}_j-n\left(k+1\right)/2\right}=\Sum_{j=1}k k{\left\{{r}_j-n\left(k+1\right)/2\right}=\Sum_{j=1}k k{\left\{\}}^2} $$

は、k個のグループ分布が同一であると仮定して、各グループの共通の期待値n(k+1)/2から、各グループの観測されたランク合計rjの二乗偏差を合計します。 Kとnの値が小さい場合、X2rの正確な分布は、たとえばFriedmanによって提示されています。 ヌルの下でのFriedmanランク和の正確な結合分布を計算するためのアルゴリズムについて論じた。 二つの対になった標本の特殊な場合については、を参照してください。

(k!)のヌル分布を使用して検定統計量を計算します。

(k!)kが大きい場合、n個の可能な順列は時間がかかります。 しかし、フリードマンは、nが無限大になる傾向があるので、X2rは、自由度がk−1のカイ二乗確率変数である√2df=k-1に分布が収束することを示した。 この結果は漸近フリードマン検定で使用されます。 フリードマン検定は、検定統計量X2rがk-1の自由度を持つX2rの極限カイ二乗分布の100(1−α)番目の百分位数を超えると、事前に指定された有意水準αでH0を棄却します。 ブロック内に同点のランクがある場合は、テスト統計量を調整する必要があります。 また、フリードマン検定の様々な修正、例えばカイ二乗分布の代替としてのF分布、および欠損データの存在下で使用するSkillings-Mack検定統計量のような一般化が提案されている。 フリードマン検定(例えば、Kruskal−Wallis,Quade,Friedman aligned ranks test)に対するこれらの調整および他の様々な調整およびノンパラメトリック競合は、ここでは議論されない(参照)。

Pairwise comparison tests and approximate critical difference

多くの場合、研究者はグループの平等のグローバル仮説をテストするだけでなく、グループのペアの平等の平等に関する推論にも興味があります。 さらに、主にH0に関心があり、仮説が棄却された場合でも、拒絶の可能性のある理由を決定するためにフォローアップ分析を実施することができる。 このような分析は、グループの違いを開示することができるが、それはまた、ペアのいずれもが世界的に有意なテスト結果にもかかわらず、有意に異なっていないことを明らかにすることができます。

これらの問題に対処するためには、同時比較検定を使用してグループのペアの等価性の仮説を検定することが好都合です。

これらの問題に対 これらの多重比較手順は、1×N(または多−1)比較において、研究対照に対する全ての非対照群の等価性のk−1仮説を検定するか、または、N×n(全対)比較において、群の全ての対の間の等価性のk(k−1)/2仮説を考慮することを含み得る。 両方のタイプの比較のために、大サンプル近似検定が設計されています。 これらは、ブロックの数(すなわち、’サンプルサイズ’)であるnが大きい状況に対して導出される。

表2は、高引用のモノグラフや論文、ノンパラメトリック統計に関する一般的な教科書で推奨されているように、フリードマンランク和の1×NとN×Nの比較に対する臨界差(CD)近似検定を示しています。 臨界差は、グループのペアが事前に指定された有意性のアルファレベルで異なるために必要なランク合計の最小差です。 多くの出版物において、CD統計量は、ランク合計ではなく、ランク合計平均の差、すなわち、r j/nを使用して計算されることに留意すべきである。 検定統計式が適切に変更されている場合、各グループにはn個の観測値があるため、結果は同じです。

表2推奨臨界差(CD)フリードマンランク合計の1×NおよびN×N比較の近似検定

n個の独立したランキング和はほぼ正規分布します。 D=r i−R jをi≠jとすると、群iとjの対の間の階数和差とする。 帰無仮説では、期待値E(d)=0、分散Var(d)=nk(k+1)/6となります。 Dの分布はE(d)=0の周りで対称であるため、歪度はゼロであり、すべての奇数次モーメントも同様です。 ホイットフィールドによって導出された尖度係数は、

mathrm mathrm{kurt}(d)=3-\frac{3}{5n}-\frac{12}{5n k}-\frac{6}{5n k\left(k+1\right)}、discrete

は3未満(すなわち、負の過剰尖度)であり、離散ランク和差分布が正規よりも薄い裾を持つことを意味する。 ただし、尖度はnが増加すると3になる傾向があるため、正規近似が妥当であることに注意してください。 これは、dが漸近的なN(0、Var(d))分布を持ち、正規偏差\(d/\sqrt{\mathrm{var}(d)}\)が漸近的にn(0、1)であることを意味します。

表2に示すように、すべてのグループをペアワイズで比較する場合は、さまざまな著者によって通常の近似検定が推奨されます。

表2に示すよ また、すべての群を単一の対照と比較するときに使用される検定統計量としてDemúarによって議論されている。 通常のテスト手順は、全体の有意水準αを実行した比較の数で除算することによって、ファミリー単位のタイプ-I誤り率を制御することに注意してくださ Holm、HochbergおよびHommelのプロシージャのような利用できるこのBonferroniタイプの訂正へより強力な競争相手が、ある。 全体的な偽陽性誤り率を制御するためのこれらの方法は、本稿では詳述されていない。 分類器の比較の分野でのチュートリアルについては、Derrac et al. .

通常の正規近似に加えて、ランク合計の差の値の分布の共分散構造を利用する同時検定が提案されています。 N個のランキングはH0の下で相互に独立しているのに対し、ランク合計とランク合計の差は依存しており、相関もあります。 ランク合計の差の間の相関関係は、関係するランク合計に依存します。 具体的には、ミラーによって報告されたように、帰無仮説が真であるとき

null mathrm{C}\mathrm{O}\mathrm{R}\left({r}_i-{r}_j、{r}_i-{r}_l\right)={\scriptscriptstyle\frac{1}{2}}\kernel2.25em i\ne j\ne l l
null mathrm{C}\Mathrm{O}mathrm mathrm{r}\left({r}_i-{r}_j,{r}_l-{R}_m\right)=0\kern2.25em i\ne j\ne l\ne m.div

したがって、相関は、共通のグループを持たないランク合計差のペアではゼロであり、両方の差に共通する1つのグループとの差のペアでは0.5である。 相関対の数はkが増加するにつれて減少する。 K群を含む研究では、相関ペアの割合は4/(k+1)に等しくなります。 したがって、たとえばk=7の場合、ペアの50%が相関しますが、k=79の場合は5%のみが相関します。

様々な研究(例えば)で述べられているように、1×Nの比較に対して、この相関構造は、H0が真であり、nが無限大になる傾向があるとき、k−1群ランク和と制御ランク和との差の分布は、ゼロ平均を持つ漸近(k−1)変量正規分布と一致することを意味する。 したがって、臨界差分値は、定数\({m}_{\alpha,df=k-1,\rho={\scriptscriptstyle\frac{1}{2}})で表2の検定統計量CD Mで近似することができます。{1}{2}}} \) は、共通相関\(\rho={\scriptscriptstyle\frac{1}{2}}を持つ(k−1)等相関N(0,1)確率変数の最大値の分布の第1パーセンタイルの上限点です。 \)この手順は、αに等しい漸近的な家族ごとの誤り率を有する。n×n比較の場合、ランク合計差の共分散は、平均がゼロのk個の独立した確率変数と分散nk(k+1)/12の間の差の共分散に等しいことを意味します。

N×n したがって、\(max\left\{\left|{R}_i-{R}_j\right|\right\}|\sqrt{nk\left(k+1\right)/12}\)の漸近分布は、k個の独立したn(0,1)確率変数の範囲(Q k,λ)の分布と一致します。 関連する検定統計量はCD Qで、定数q α,df=k,θは自由度(k,θ)をもつStudentized range(q)分布の上位ath百分位点です。 ここでも、検定はすべてのk群の絶対差を同時に考慮するので、漸近的な家族ごとの誤り率はαに等しくなります。

フリードマン統計検定自体は、表2の一番下の行に記載されている同時検定を生じさせます。 帰無仮説は、ランク合計の差が臨界値\(C{D}_{\chi^2}を超えない場合に受け入れられます。 \)この漸近カイ二乗近似は、いくつかの一般的な教科書で推奨されていますが、Millerは確率文が最も鋭いテストではないと主張しています。\)\)\)\)\)\)\)\)\)\)\)

統計的検出力と代替検定

表2に示すCD検定統計は、実験で決定されたブロック内ランクに関する情報を必要としないことに注意してく むしろ、同時ランク検定はすべて、各ブロック内で各観測値が利用可能なランクを持つ可能性が等しく高いことを前提としています。 これが真である場合、数量(k+1)(k−1)/12はブロック内のランキングの分散であり、nk(k+1)/6は任意の2つのランク合計の差の分散です。 したがって、母集団におけるdのヌル分布は、平均がゼロで、既知の標準偏差があります。 これが、通常の近似検定でzスコアが検定統計量として使用される正確な理由です。 しかし、この文脈では、nk(k+1)/6の平方根は、全体の帰無仮説が真であるときはdの標準偏差であるが、偽であるときはそうではないことを強調するこ これは、p値と同様に、特定のモデル、すなわちH0;真であってもそうでなくてもよいモデルでのみ保持されます。 帰無仮説が偽である場合、量nk(k+1)/6は通常、分散の過剰推定値であり、これにより、近似検定と正確検定の同時検定が検出力を失う原因となります。

ランク合計ではなく、観測されたランクスコアで計算されるフリードマンランク合計のペアワイズ比較検定があります。 Rosenthal-Ferguson検定や一般的なConover検定などのこれらの検定は、検定統計量としてt-scoreを使用します。 ペアワイズt検定は、多くの場合、上記で説明した同時検定よりも強力ですが、欠点もあります。 簡単に言えば、ローゼンタール-ファーガソン検定は、グループの個々のペアのランクスコアの観測された分散と共分散を使用して、ペアワイズのランク合計差の有意性の検定に対するdの標準誤差を取得します。 この標準誤差は、ペアワイズ差がないという帰無仮説が真であるかどうかにかかわらず有効です。 しかし、nがk+1より大きくなければならないという検定の形式的制約の隣には、小さなサンプルのフリードマン検定アプリケーションでは(co-)分散推定に利用可能な自由度がほとんどないため、dの分散はあまり推定されない可能性がある。 さらに、観測された(co-)分散は、グループのペアごとに異なります。 したがって、与えられた階数和Aと別の階数和Bとの差の重要性から、BよりもAとは異なる第三階数和Cも有意に異なることにはならない。 これはテストの不快な特徴です。

Conover検定は、すべてのグループの観測されたランクスコアの(co-)分散からプールされた標準誤差を計算することによって、dの標準偏差を推定し、統計的 この方法は、ランクスコアに適用されるFisherの保護された最小有意差(LSD)検定に似ています。 この方法論では、ファミリごとの誤り率を名目上の有意水準で維持するために、p値に対する複数の検定の調整は行われません。 むしろ、検定は、検定全体の統計量が有意でない限り、ペアワイズ比較が実行されないという意味で保護されています。 Fisher protected LSD手順と同様に、Conover検定は、全体的な検定の観測されたF値を推論決定プロセスに組み込む性質を持っています。 しかし、観測されたF値を0-1(‘go/no go’)の方法でのみ使用するFisher protected LSDとは対照的に、Conover検定はLSDを計算するときに滑らかな方法でF値を使用します。 つまり、全体的な検定統計量が大きいほど、ランク合計差が有意であると宣言するための最下位差しきい値が小さくなるという珍しい特性があります。 Duncan-Waller検定はこれと同じ特性を持っていますが、この検定はBayes LSDとの多重比較に対するベイズアプローチを提唱しています。 第二段階の比較検定は第一段階の結果に条件付きであるため、ペアワイズ-コノーバー検定で使用される公称アルファレベルは、頻度論的な意味での本当の確率的意味を持たない。 ConoverとImanによって指摘されているように(: 2),”第二段階検定のαレベルは通常知られていないので,それはもはや通常の意味での仮説検定ではなく、むしろ他からいくつかの治療法を分離するた”

正確な分布と高速なp値計算

フリードマンランク合計の同時ペアワイズ比較のための正確なテストを提示します。 正確なヌル分布は、確率生成関数法を使用して決定されます。 生成関数は、分布のないテスト統計量の確率分布または頻度分布を取得するためのエレガントな方法を提供します。 生成関数法を適用すると、次の定理が生じ、その証明は追加ファイル1にあります。Theorem p\left(d=d;k,n\right)={\left\{k\left(k-1\right)\right\}}w{-n}w\left(d=d;k,n\right),$ $

ここで、mutually p\left(d=d;k,n\right)={\left\{k\left(k-1\right)\right\}}w{-n}w\left(d=d;k,n\right)={\left\{k\left(k-1\right)\right\}}w{-n}w\left(d=d;k,n\right)={\left\{k\left(k-1\right)\right\}}w{-n}w\left(d=d;k,n\right)={\left\{k\left(k-1\right)\right\}}w{-n}w\left(k\left(k-1\right)\right\}w{-n}/p>

w w\left(d=d)leftを使用します。; frac sum_{h=0}begin n\left(\begin{array}{c}\hfill n\hfill\{}\hfill h\hfill\end{array}\right)}\frac{1}{k^h{\left(1-k\right)}n n}{\displaystyle\sum_{i=0}h h{\displaystyle\sum_{j=0}begin{n}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{}}}}}}}}}}}}}}}}}}}{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}左(\開始{アレイ}{C}\hfill H\hfill\{}\hfill I\hfill\端{アレイ}\右)\左(\開始{アレイ}{c}\hfill H\hfill\{}\hfill J\hfill\端{アレイ}\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)\右)\左(\開始{アレイ}{c}\hfill k\左(J-i\右)\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)\右)\右(\開始{アレイ}-d+h-1\hfill\{}\hfill k\左(j-i\右)-d-h\hfill\端{アレイ}\右)right

の数です dの階数和差が発生する可能性があり、dはd=をサポートしています。

追加ファイル1は、dの正確なp値に対する閉じた形式の式も提供しています。p値は、帰無仮説が真であると仮定して、観測されたものと少なくとも極端な結果を得る確率として定義されます。 これは、同じkとnについて、nullの下でdの観測値と同じ可能性があるか、または可能性が低いすべての可能性のあるdの確率の合計として得られま 正確なp-値はP(D⊆d)と表される。; これは、式

begin begin{array}{l}p\left(d\ge d)beginを使用して計算されます。; frac sum_{i=0}h h{\displaystyle\sum_{j=0}h h{\left(-1\right)}begin{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(j-i\right)}end{\left(\開始{アレイ}{C}\hfill h\hfill\{}\hfill i\hfill\端{アレイ}\右)\左(\開始{アレイ}{c}\hfill h\hfill\{}\hfill j\hfill\端{アレイ}\右)\左(\開始{アレイ}{c}\hfill k\左(j-i\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+h\hfill\{}\hfill k\左(J-I\右)-d+右)-d-h\hfill\端{アレイ}右)、\{}\kern27.5em d=-n\left(k-1\right)、\dots、n\left(k-1\right)。\end{array}.

このトリプル合計式で正確なp値を計算すると、ブルートフォース順列アプローチによるすべての可能な結果とその確率の完全な列挙よりも一桁 しかし、nの値が大きい場合、正確な計算は多少時間がかかり、正確なテストを実行するための実用的な範囲を拡張するために、p値をより効率的に計算また、実際には多重比較検定は絶対差に関係しているため、ランク合計の差の絶対値の累積確率を計算することが好都合です。

また、実際には多重比較 Dの対称分布の質量点の数は2n(k−1)+1の形式の整数であるため、分布は奇数の確率を持ちます。 これは、dの確率質量関数がゼロの周りで対称であるため、d=0の左の確率質量が折り畳まれ、非負のdの折り畳まれた分布が得られることを意味する。 その結果、範囲d=1,…,n(k−1)の非負dの片側p値は、支持d=を有する対称分布の2つの片側p値の和として得ることができる。 片側のp値を2倍にすると、d=0のp値が1を超えるようになり、d=0(のみ)のp値はP(D≤0;k、n)=P(D=0)+P(D≤1)として計算され、これは正確に1に等しい。計算を高速化するために、P(D≤d;k,n)の式のインデックスiとjの二重総和を、定理2を使用して単一のインデックス、sの総和に変換します。

計算を高速化するために、P(D≤d;k,n)の式のインデックスiとjの二重総和を、定理2を使用して単一のインデックス、sの総和に変換します。 証明は追加のファイル2で与えられています。Theorem sum_{i=0}h h{\displaystyle\sum_{j=0}h h{\left(-1\right)}j{\left(j-i\right)}}}\left(\begin{array}{c}\hfill h\hfill\{}\hfill i\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)\left(\begin{array}{c}\hfill h\hfill\end{array}\right)右\開始{アレイ}{C}\hfill k\左(j-i\右)-d+h\hfill\{}\hfill k\左(j-i\右)-d-h\hfill\端{アレイ}\右)={\displaystyle\sum_{s=0}h h{\left(-1\right)}s s}\左(\開始{アレイ}{C}\hfill k\左(j-i\右)-d+h\hfill\右)={\displaystyle\sum_{s=0}h h{\left(-1\right)}s s}\左(\開始{アレイ}{C}\hfill k\左(j-i\右)-d+h\hfill\右)={\displaystyle\sum_{s=0}h h{\left(-1\right)}s s}\左(\開始{アレイ}{C}\hfill k\左(j-i\右)-d+h\hfill\\開始{アレイ}{C}\開始{アレイ}{C}\開始{アレイ}{C}\開始{アレイ}{C}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\開始{アレイ}{c}\- d+h\hfill\{}\hfill k s-d-h\hfill\端{アレイ}右)。 sing

この単和関数への縮小は、p値が代わりにはるかに単純な式から計算できることを意味します

p p\Left(d\Ge\\left|d\right|div p\Left(d\Ge\\left|d\right|div p\Left(d\Ge\\left|d\right|div p\Left(d\Ge\\left|d\right|div p\Left(d\Ge\\left|d\; frac sum_{k=0}begin n\left(\begin{array}{c}\hfill n\hfill\{}\hfill h\hfill\end{array}\right)}\frac{1}{k^h{\left(1-k\right)}n n}{\displaystyle\sum_{s=0}h h{\left(-1\right)}s s\left(\begin{array}{c}\hfill n\hfill\end{array}\right)}\left(\begin{array}{c}\hfill n\hfill\end{array}\right)}\left(\begin{array}{c}\hfill n\hfill\end{array}\right)}\left(\begin{array}{c}\hfill n\hfill\end{array}\right)}\left(\begin{array}{c}\hfill n\hfill\end{array}\right)}\left(\begin{array}{\開始{アレイ}{C}\hfill2h\hfill\{}\hfill h+s\hfill\端{アレイ}\右)\左(\開始{アレイ}{c}\hfill ks-d+h\hfill\{}\hfill ks-d-h\hfill\端{アレイ}\右)}、\kern1.8em d=1、\dots、n\左(k-1\右)\hfill\{}1\kern22.5em d=0、\kern3em\端{アレイ}\右。 $ $

そして、私たちが示すように、計算上高速な方法でnのより大きな値に対しても。

ソフトウェア実装

正確なp値に対する二つの式は数学的に正しいが、単純な計算では計算エラーが発生する可能性がある。 N(20程度)の中程度の値であっても、インデックスにdを持つ二項係数が非常に大きくなる可能性があり、これらの数値を後続の乗算のために格納すると、固定精度算術の精度制限のために数値オーバーフローが発生します。 この失敗に対処する1つの方法は、生成関数を満たす再帰関係を使用することです。 正確なp値を正しく計算するより高速な方法は、任意の精度の算術計算を使用して、利用可能なコンピュータメモリによってのみ制限された任意の大きさの数値を処理することです。

kとnが与えられた絶対ランク合計差dのp値の計算がRに実装されます。 高精度の算術演算をインストールするためにパッケージRmpfrを必要とするRコードは、追加のファイル3にあります。 Pexactfrsdというラベルの付いたスクリプトは、正確なp値P(D∞|d|)を計算し、さらに確率P(D=|d|)とdの合成の(累積)数(すなわち、W(D=|d|)とW(D∞|d|))を計算する可能性を与えます。 Rコードと潜在的な将来の更新は、http://www.ru.nl/publish/pages/726696/friedmanrsd.zipでも利用できます。

派生を説明するために、追加のファイル4は小さなサイズの数値例(k=3、n=2)を提供し、追加のファイル5は、OEISに含めるために、k=n=2、…、6の組み合わせ 追加のファイル5で見ることができるように、nの小さな値に対して、dの展開された対称分布は二峰性であり、モードは+1および−1である。 この機能は、nが増加すると急速に消え、具体的には、k>2n≥6です。以下、特に明記しない限り、階数和差dの値を0からn(k−1)までの範囲でゼロまたは正のいずれかとみなし、dの周りに絶対値記号をドロップします。

不完全なランキング

n個のランキング{1,2,…,k}は相互に独立しているため、(D1;k,n1)と(D2;k,n2)というラベルの付いた二つの(またはそれ以上の)等しいまたは不等なサイズの部分に分割することができ、≤2t=1D t=Dであり、d tは二つの部分のランク合計の差を示す。 正確なp-値は、

≤p\left(d\ge d;k,n\right)=p\left(d\ge d;k,{n}_1,{n}_2\right)={\displaystyle\sum_{i=-{n}_1\left(k-1\right)}p{n_1\left(k-1\right)}p\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)}\left({d}_1=i;k,{n}_1\right)times p\左({d}_2\ge\左(d-i\右))timesはtimes p\左({d}_2\ge\左)timesを意味します。; ここで、総和の下限によって示されるように、負のdを可能にするp値式を使用して計算が行われます。exact methodのユニークで有用な特性は、不等ブロックサイズkを持つ設計、例えば、n1がランク{1,2,…,k1}を持ち、n2がランク{1,2,…,k1}を持つ設計に対してp値確率を計算することが容易であるということです。…,k2},k1≤k2である。 J個の不等な大きさの部分を持つ不完全な計画における正確なp値を計算するための一般的な式は、

$ $begin{array}{l}p\left(d\ge d;{k}_1,{n}_1,{k}_2,{n}_2,\cdots,{k}_j,{n}_j\right)={\displaystyle\sum_{i_1=-{n}_1\left({k}_1-1\right)}begin{sum sum_{i_{j-1}=-{n}_{j-1}\left({k}_{j-1}-1\right)}n{n_{j-1}\left({k}_{j-1}-1\right)}cd{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}-1\right)}sum{n_{j-1}\left({k}_{j-1}これは、kern p\left({d}_1={i}_1;{k}_1,{n}_1\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left({d}_2={i}_2\right)\times\left;これは、P p_1、p_2、P_3、P_4、P_5、P_6、P_7、P_8、P_9、P_1、p_2、P_3、P_4、P_5、p_6、P_7、p_8、p_9、p_1、p_2、P_3、P_4、P_5、P_6、p_7、p_8、p_9、P_1、P_2、P_3、P_4、p_5、p_6、p_6、p_7、p_7、p_8、p_9、p_1、p_2、ここで、J J t=1d T=dであり、nが3つの部分に細分され、それぞれがk(k1、k2、k3)の一意の値を持つ例は、

begin begin{array}{l}p\left(d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\ge d\;{k}_1,{n}_1,{k}_2,{n}_2,{k}_3,{n}_3\right)={\displaystyle\sum_{i=-{n}_1\left({k}_1-1\right)}^{n_1\left({k}_1-1\right)}{\displaystyle\sum_{j=-{n}_2\left({k}_2-1\right)}n{n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}={n_2\left({k}_2-1\right)}したがって、p p\left({d}_1=i;{k}_1,{n}_1\right)\times p\left({d}_1=i;{k}_1,{n}_1\right)\times}}\\ {}\\ {}\kern13.5em P\left({D}_2=j;{k}_2,{n}_2\right)\times P\left({D}_3\ge\left(d-i-j\right);{k}_3,{n}_3\right)。\end{array}.

sum関数は計算を遅くしますが、正確なp値計算のこのユニークな特徴は、ブロック内のランクが設計上欠落しているときはいつでも有効な同時有意性検定を行うことを可能にします。 このようなテストは、大サンプル近似法のいずれかを使用して達成するのは難しいでしょう。 経験的な例は、アプリケーションのセクションで与えられます。

正確なp値と中間のp値

d=のサポートを持つペアワイズの差は、H0の下でゼロの周りに対称的に分布しているため、片側のp値を倍にすることは、通常の正確な検定のための最も自然で一般的な選択です。 正確なp値を使用した検定では、タイプIエラーをコミットする確率が名目上の有意水準を超えないことが保証されます。 ただし、タイプIの誤り率は常に公称レベルを下回っているため、正確なp値を持つ有意性検定は、特に検定が非常に離散的な分布を含む場合には、検定 一般に、観測された統計量の確率の半分に、より極端な値の確率を加えたものとして定義される中間のp値、すなわち、

$ ${p}_{\mathrm{mid}}\left(d\ge d;k、n\right)={\scriptscriptstyle\frac{1}{2}}p\left(d=d\right)+p\left(d>d\right)、,>d\right)、$ $>d\right)、$ $>d\right)、$ $>d\right)、$ $>

この問題を改善します。 中間のp値は、時折公称サイズを超えることを犠牲にして、正確なp値よりも常に公称レベルに近い。

タイランキング

中間のp値は、タイランキングを処理するために使用することもできます。 ブロック内でタイが発生すると、中間ランク(つまり、ランクの平均)が一般的に各タイ値に割り当てられます。 結合されたランクの結果として、観測されたランク合計差が整数値dに0.5を加えた場合、p値は隣接する整数dおよびd+1の正確なp値の平均、すなわち\({\scriptscriptstyle\frac{1}{2}}\left,\)として得られ、これは中間のp値と同等である。 結果として得られる確率は正確には有効ではないことに注意する必要があります。 正確なp値は特定のイベントの正確な頻度確率を表し、中間のp値はそのような頻度解釈を持たない。 しかし、この解釈上の欠点は実用的な問題ではなく、中間のp値を使用することはほぼ正確な周波数アプローチであると主張することができる。 ランクテストにおけるタイの他の処理の議論については、を参照してください。