J'ai quelques données sur les vols des compagnies aériennes (dans une trame de données appelée flights
) et j'aimerais voir si le temps de vol a un effet sur la probabilité d'une arrivée considérablement retardée (c'est-à-dire 10 minutes ou plus). Je pensais utiliser une régression logistique, avec le temps de vol comme facteur de prévision et si chaque vol était retardé de manière significative (un groupe de Bernoullis) comme réponse. J'ai utilisé le code suivant ...
flights$BigDelay <- flights$ArrDelay >= 10
delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
summary(delay.model)
... mais j'ai eu la sortie suivante.
> flights$BigDelay <- flights$ArrDelay >= 10
> delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
Warning messages:
1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, :
algorithm did not converge
2: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, :
fitted probabilities numerically 0 or 1 occurred
> summary(delay.model)
Call:
glm(formula = BigDelay ~ ArrDelay, family = binomial(link = "logit"),
data = flights)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.843e-04 -2.107e-08 -2.107e-08 2.107e-08 3.814e-04
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -312.14 170.26 -1.833 0.0668 .
ArrDelay 32.86 17.92 1.833 0.0668 .
---
Signif. codes: 0 â***â 0.001 â**â 0.01 â*â 0.05 â.â 0.1 â â 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.8375e+06 on 2291292 degrees of freedom
Residual deviance: 9.1675e-03 on 2291291 degrees of freedom
AIC: 4.0092
Number of Fisher Scoring iterations: 25
Qu'est-ce que cela signifie que l'algorithme n'a pas convergé? Je pensais que c'était parce que les BigDelay
valeurs étaient TRUE
et FALSE
au lieu de 0
et 1
, mais j'ai eu la même erreur après avoir tout converti. Des idées?