Articles

Cele 6 ipoteze de regresie logistică (cu exemple)

regresia logistică este o metodă pe care o putem folosi pentru a se potrivi unui model de regresie atunci când variabila de răspuns este binară.

înainte de montarea unui model la un set de date, regresia logistică face următoarele ipoteze:

ipoteza #1: variabila de răspuns este binară

regresia logistică presupune că variabila de răspuns are doar două rezultate posibile. Câteva exemple includ:

  • da sau nu
  • masculin sau feminin
  • trece sau nu
  • redactat sau nu
  • malign sau Benign

cum se verifică această ipoteză: pur și simplu numărați câte rezultate unice apar în variabila de răspuns. Dacă există mai mult de două rezultate posibile, va trebui să efectuați regresia ordinală.

ipoteza #2: observațiile sunt independente

regresia logistică presupune că observațiile din setul de date sunt independente unele de altele. Adică, observațiile nu ar trebui să provină din măsurători repetate ale aceluiași individ sau să fie legate între ele în vreun fel.

cum se verifică această ipoteză: cel mai simplu mod de a verifica această ipoteză este de a crea un complot de reziduuri în timp (adică ordinea observațiilor) și de a observa dacă există sau nu un model aleatoriu. Dacă nu există un model aleatoriu, atunci această ipoteză poate fi încălcată.

ipoteza # 3: Nu există Multicolinearitate între variabilele explicative

regresia logistică presupune că nu există o multicolinearitate severă între variabilele explicative.

multicoliniaritatea apare atunci când două sau mai multe variabile explicative sunt puternic corelate între ele, astfel încât nu oferă informații unice sau independente în modelul de regresie. Dacă gradul de corelație este suficient de ridicat între variabile, poate provoca probleme la montarea și interpretarea modelului.

de exemplu, să presupunem că doriți să efectuați regresia logistică folosind saltul vertical maxim ca variabilă de răspuns și următoarele variabile ca variabile explicative:

  • înălțimea jucătorului
  • dimensiunea pantofului jucătorului
  • ore petrecute practicând pe zi

în acest caz, înălțimea și dimensiunea pantofului sunt susceptibile de a fi foarte corelate, deoarece persoanele mai înalte tind să aibă dimensiuni mai mari ale pantofilor. Aceasta înseamnă că multicolinearitatea este probabil să fie o problemă dacă folosim ambele variabile în regresie.

cum să verificați această ipoteză: Cel mai comun mod de a detecta multicolinearitatea este prin utilizarea factorului de inflație a varianței (Vif), care măsoară corelația și puterea corelației dintre variabilele predictoare într-un model de regresie. Consultați acest tutorial pentru o explicație aprofundată a modului de calculare și interpretare a valorilor VIF.

ipoteza #4: nu există valori extreme aberante

regresia logistică presupune că nu există valori extreme aberante sau observații influente în setul de date.

cum să verificați această ipoteză: Cea mai obișnuită modalitate de a testa valorile extreme și observațiile influente într-un set de date este de a calcula distanța lui Cook pentru fiecare observație. Dacă există într-adevăr valori aberante, puteți alege (1) să le eliminați, (2) să le înlocuiți cu o valoare precum media sau mediana sau (3) pur și simplu să le păstrați în model, dar să notați acest lucru atunci când raportați rezultatele regresiei.

ipoteza # 5: Există o relație liniară între variabilele explicative și Logitul variabilei de răspuns

regresia logistică presupune că există o relație liniară între fiecare variabilă explicativă și logitul variabilei de răspuns. Reamintim că logit este definit ca:

Logit(p) = log(p / (1-p)) unde p este probabilitatea unui rezultat pozitiv.

cum să verificați această ipoteză: cel mai simplu mod de a vedea dacă această ipoteză este îndeplinită este să utilizați un test Box-Tidwell.

ipoteza # 6: Dimensiunea eșantionului este suficient de mare

regresia logistică presupune că dimensiunea eșantionului setului de date este suficient de mare pentru a trage concluzii valide din modelul de regresie logistică montat.

cum să verificați această ipoteză: de regulă, ar trebui să aveți minimum 10 cazuri cu rezultatul cel mai puțin frecvent pentru fiecare variabilă explicativă. De exemplu, dacă aveți 3 variabile explicative și probabilitatea așteptată a rezultatului cel mai puțin frecvent este de 0,20, atunci ar trebui să aveți o dimensiune a eșantionului de cel puțin (10*3) / 0.20 = 150.

ipoteze de regresie logistică vs. Regresia liniară

spre deosebire de regresia liniară, regresia logistică nu necesită:

  • o relație liniară între variabila(variabilele) explicativă (E) și variabila de răspuns.
  • reziduurile modelului care urmează să fie distribuite în mod normal.
  • reziduurile au varianță constantă, cunoscută și sub numele de homoscedasticitate.

Related: cele patru ipoteze de regresie liniară