Articles

ロジスティック回帰の6つの仮定(例あり)

ロジスティック回帰は、応答変数がバイナリの場合に回帰モデルを近似するために使用できる方

モデルをデータセットに当てはめる前に、ロジスティック回帰は次の仮定を行います。

仮定#1:応答変数がバイナリです

ロジスティック回帰は、応答変数が二つの可能な結果のみを取ると仮定します。 いくつかの例は次のとおりです:

  • はいまたはいいえ
  • 男性または女性
  • 合格または不合格
  • 起草または起草されていない
  • 悪性または良性

この仮定を確認する方法: 可能な結果が2つ以上ある場合は、代わりに順序回帰を実行する必要があります。

仮定#2:観測値は独立しています

ロジスティック回帰は、データセット内の観測値が互いに独立していることを前提としています。 つまり、観測値は、同じ個人の繰り返し測定から来るべきではないか、またはどのような方法で互いに関連しているべきではありません。この仮定を確認する方法:この仮定を確認する最も簡単な方法は、時間に対する残差のプロット(つまり、観測値の順序)を作成し、ランダムなパターンが ランダムなパターンがない場合、この仮定は違反する可能性があります。

仮定#3: 説明変数の間に多重共線性は存在しない

ロジスティック回帰は、説明変数の間に深刻な多重共線性が存在しないと仮定します。

多重共線性は、2つ以上の説明変数が互いに高度に相関していて、回帰モデルで一意または独立した情報が提供されない場合に発生します。 変数間の相関度が十分に高い場合は、モデルの近似と解釈時に問題が発生する可能性があります。

たとえば、応答変数として最大垂直ジャンプを使用し、説明変数として次の変数を使用してロジスティック回帰を実行するとします。

  • プレーヤーの身長
  • プレーヤーの靴のサイズ
  • 一日あたりの練習に費やされた時間

この場合、背の高い人は靴のサイズが大きくなる傾向があるため、身長と靴のサイズは高い相関がある可能性があります。 これは、回帰でこれらの変数の両方を使用すると、多重共線性が問題になる可能性が高いことを意味します。

どのようにこの仮定をチェックするには: 多重共線性を検出する最も一般的な方法は、回帰モデル内の予測子変数間の相関と相関の強さを測定する分散インフレ係数(VIF)を使用することです。 VIF値を計算および解釈する方法の詳細な説明については、このチュートリアルを参照してください。

仮定#4:極端な外れ値はありません

ロジスティック回帰は、データセットに極端な外れ値や影響力のある観測値がないことを前提としています。

どのようにこの仮定をチェックするには: データセット内の極端な外れ値と影響力のある観測値をテストする最も一般的な方法は、各観測値のクックの距離を計算することです。 実際に外れ値がある場合は、(1)それらを削除する、(2)平均値や中央値などの値に置き換える、または(3)モデルに保存するだけですが、回帰結果を報告す

仮定#5: 説明変数と応答変数のロジットとの間に線形関係があります

ロジスティック回帰は、各説明変数と応答変数のロジットとの間に線形関係が Logitは次のように定義されていることを思い出してください。

Logit(p)=log(p/(1-p))ここで、pは肯定的な結果の確率です。この仮定を確認する方法:この仮定が満たされているかどうかを確認する最も簡単な方法は、Box-Tidwellテストを使用することです。

仮定#6: サンプルサイズが十分に大きい

ロジスティック回帰では、近似ロジスティック回帰モデルから有効な結論を導き出すのに十分な大きさであれば、データセットのサンプルサイズが想定されます。

この仮定を確認する方法:経験則として、各説明変数の結果が最も頻繁でない場合は、最小10ケースが必要です。

たとえば、3つの説明変数があり、最も頻度の低い結果の期待される確率が0.20である場合、少なくともサンプルサイズが必要です(10*3) / 0.20 = 150.

ロジスティック回帰の仮定と対 線形回帰

線形回帰とは対照的に、ロジスティック回帰は次のことを必要としません。

  • 説明変数と応答変数との間の線形関係。
    • 説明変数と応答変数との間の線形関係。
      • 説明変数と応答変数との間の線形関係。
      • 正規分布するモデルの残差。
      • 残差は一定の分散を持ち、ホモスケダスティシティとも呼ばれます。

      関連:線形回帰の4つの仮定