As 6 suposições de regressão logística (com exemplos)
regressão logística é um método que podemos usar para encaixar um modelo de regressão quando a variável de resposta é binária.
Antes de ajustar um modelo a um conjunto de dados, a regressão logística faz os seguintes pressupostos:
pressuposto #1: a variável de resposta é binária
regressão logística assume que a variável de resposta só assume dois resultados possíveis. Alguns exemplos incluem:Sim ou não, malignos ou benignos, como verificar esta suposição: basta contar quantos resultados únicos ocorrem na variável resposta. Se houver mais de dois resultados possíveis, você terá que realizar regressão ordinal em vez disso.
suposição # 2: As observações são independentes
regressão logística assume que as observações no conjunto de dados são independentes umas das outras. Ou seja, as observações não devem provir de medições repetidas do mesmo indivíduo ou estar relacionadas entre si de alguma forma.
Como verificar esta suposição: a maneira mais fácil de verificar esta suposição é criar uma parcela de resíduos contra o tempo (ou seja, a ordem das observações) e observar se existe ou não um padrão aleatório. Se não houver um padrão aleatório, então esta suposição pode ser violada. hipótese # 3: Não há multicolinearidade entre as variáveis explicativas
regressão logística assume que não há multicolinearidade grave entre as variáveis explicativas.
multicolinearidade ocorre quando duas ou mais variáveis explicativas estão altamente correlacionadas umas com as outras, de modo que elas não fornecem informações únicas ou independentes no modelo de regressão. Se o grau de correlação é alto o suficiente entre variáveis, pode causar problemas ao ajustar e interpretar o modelo.
Por exemplo, suponha que você queira executar a regressão logística usando o max salto vertical como a variável de resposta e as seguintes variáveis como variáveis explicativas:
- Leitor de altura
- Leitor de tamanho de calçado
- Horas gastas praticando por dia
neste caso, altura e tamanho do sapato são susceptíveis de ser altamente correlacionada desde o mais alto, as pessoas tendem a ter maiores tamanhos de sapato. Isto significa que a multicolinearidade é provável que seja um problema se usarmos ambas as variáveis na regressão.como verificar esta hipótese: A maneira mais comum de detectar multicolinearidade é usando o Fator de inflação de variância (VIF), que mede a correlação e força da correlação entre as variáveis predictor em um modelo de regressão. Confira este tutorial para obter uma explicação em profundidade de como calcular e interpretar os valores do VIF.
suposição # 4: não existem valores extremos anómalos
regressão logística assume que não existem valores extremos anómalos ou observações influentes no conjunto de dados.como verificar esta hipótese: A maneira mais comum de testar para observações extremas e influentes em um conjunto de dados é calcular a distância de Cook para cada observação. Se houver realmente anómalos, você pode optar por (1) removê-los, (2) substituí-los por um valor como a média ou mediana, ou (3) simplesmente mantê-los no modelo, mas fazer uma nota sobre isso ao relatar os resultados de regressão.hipótese # 5: Há uma Relação Linear Entre as Variáveis Explicativas e o Logit da Variável de Resposta
a regressão Logística assume-se que existe uma relação linear entre cada variável explicativa e o logit da variável de resposta. Recorde-se que o logit é definido como:
Logit(p) = log(P / (1-p)), em que p é a probabilidade de um resultado positivo.
Como verificar esta suposição: a maneira mais fácil de ver se esta suposição é cumprida é usar um teste Box-Tidwell.hipótese # 6: A dimensão da amostra é suficientemente grande
regressão logística pressupõe que a dimensão da amostra do conjunto de dados, se for suficientemente grande para tirar conclusões válidas do modelo de regressão logística montado.
Como verificar esta suposição: como regra geral, você deve ter um mínimo de 10 casos com o resultado menos frequente para cada variável explicativa. Por exemplo, se você tem 3 variáveis explicativas e a probabilidade esperada do resultado menos frequente é 0.20, então você deve ter um tamanho de amostra de pelo menos (10*3) / 0.20 = 150.
hipóteses de regressão logística vs. Regressão Linear
em contraste com regressão linear, a regressão logística não exige:
- uma relação linear entre a(s) variável (s) explicativa (s) e a variável de resposta.os resíduos do modelo a distribuir normalmente.
- Os resíduos têm variância constante, também conhecida como homoscedasticidade.relacionado: Os quatro pressupostos da regressão Linear