Dans la notation que j'utiliserai, sera le nombre de variables de conception (y compris le terme constant), le nombre d'observations avec (si cette dernière condition n'était pas remplie, le package n'aurait pas retourné d'ajustement mais une erreur, donc je suppose qu'elle est remplie). Je désignerai par le vecteur des coefficients estimés par FLTS ( ) et les coefficients estimés par MM ( ). J'écrirai également:pnn≥2p+1β^FLTSltsReg
β^MMlmrob
r2i(β^)=(yi−x⊤iβ^)2
(ce sont les résidus au carré, pas ceux normalisés!)
La rlm
fonction correspond à une estimation «M» de la régression et, comme la proposition de @Frank Harrell faite dans les commentaires à votre question, elle n'est pas robuste aux valeurs aberrantes sur l'espace de conception. La régression ordinale a un point de rupture (la proportion de vos données qui doit être remplacée par des valeurs aberrantes pour tirer les coefficients ajustés à des valeurs arbitraires) de essentiellement ce qui signifie qu'une seule valeur aberrante (indépendamment de !) Suffit pour rendre l'ajustement dénué de sens . Pour les estimations de régression M (par exemple la régression de Huber M), le point de rupture est essentiellement de . C'est un peu plus élevé, mais en pratique, il est toujours inconfortablement proche de 0 (car souvent sera grand). La seule conclusion que l'on puisse tirer de1/nn1/(p+1)prlm
trouver un ajustement différent des deux autres méthodes est qu'il a été influencé par des valeurs aberrantes de conception et qu'il doit y en avoir plus de dans votre ensemble de données.p+1
En revanche, les deux autres algorithmes sont beaucoup plus robustes: leur point de rupture est juste en dessous de et, surtout, ne rétrécit pas lorsque devient grand. Lorsque vous ajustez un modèle linéaire à l'aide d'une méthode robuste, vous supposez qu'au moins observations dans vos données ne sont pas contaminées. La tâche de ces deux algorithmes est de trouver ces observations et de les adapter au mieux. Plus précisément, si l'on note:1/2ph=⌊(n+p+1)/2⌋+1
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(où est le quantile du vecteur )qh/n(r2i(β^MM))h/nr2i(β^MM)
alors ( ) essaie d'ajuster les observations avec des indices dans ( ).β^MMβ^FLTSHMMHFLTS
Le fait qu'il existe de grandes différences entre et indique que les deux algorithmes n'identifient pas le même ensemble d'observations que les valeurs aberrantes. Cela signifie qu'au moins l'un d'entre eux est influencé par les valeurs aberrantes. Dans ce cas, l'utilisation du (ajusté) ou de n'importe quelle statistique de l'un des deux ajustements pour décider lequel utiliser, bien qu'intuitif, est une idée terrible : les ajustements contaminés ont généralement des résidus plus petits que ceux propres (mais puisque la connaissance de c'est la raison pour laquelle on utilise des statistiques robustes en premier lieu, je suppose que l'OP en est bien conscient et que je n'ai pas besoin de m'étendre là-dessus).β^FLTSβ^MMR2
Les deux ajustements robustes donnent des résultats contradictoires et la question est celle qui est correcte? Une façon de résoudre ce problème consiste à considérer l'ensemble:
H+=HMM∩HFLTS
car , . De plus, si ou est exempt de valeurs aberrantes, . La solution que je propose exploite ce fait. Calculer:h≥[n/2]#{H+}≥pHMMHFLTSH+
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
Par exemple, si , alors,
correspond mieux aux bonnes observations que et je ferais donc plus confiance à . Et vice versa.D(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS