Statistiques et Big Data robust

14

Pourquoi les statistiques robustes (et résistantes) n'ont-elles pas remplacé les techniques classiques?

Lors de la résolution de problèmes métiers à l'aide de données, il est courant qu'au moins une hypothèse clé selon laquelle les statistiques classiques sous-goupilles sont invalides est invalide. La plupart du temps, personne ne se soucie de vérifier ces hypothèses pour ne jamais le savoir. Par exemple, le fait …

82 model-selection nonparametric outliers robust philosophical

3

Pourquoi nous soucions-nous tant des termes d'erreur (et de l'homoscédasticité) normalement distribués dans la régression linéaire alors que nous n'en avons pas besoin?

Je suppose que je suis frustré chaque fois que j'entends quelqu'un dire que la non-normalité des résidus et / ou l'hétéroscédasticité enfreignent les suppositions de la méthode MCO. Pour estimer les paramètres dans un modèle MLS, aucune de ces hypothèses n'est nécessaire selon le théorème de Gauss-Markov. Je vois à …

52 regression assumptions normality-assumption robust teaching

4

Régression linéaire rapide robuste aux valeurs aberrantes

Je traite de données linéaires avec des valeurs aberrantes, dont certaines sont à plus de 5 écarts-types de la droite de régression estimée. Je cherche une technique de régression linéaire qui réduit l’influence de ces points. Jusqu'ici, ce que j'ai fait est d'estimer la droite de régression avec toutes les …

50 regression linear-model outliers robust fused-lasso

4

Réplication de l'option «robuste» de Stata dans R

J'ai essayé de reproduire les résultats de l'option Stata robustdans R. J'ai utilisé la rlmcommande du package MASS ainsi que la commande lmrobdu package "robustbase". Dans les deux cas, les résultats sont assez différents de l’option "robuste" de Stata. Quelqu'un peut-il suggérer quelque chose dans ce contexte? Voici les résultats …

39 r stata robust robust-standard-error

6

Que serait un modèle bayésien robuste pour estimer l’échelle d’une distribution approximativement normale?

Il existe un certain nombre d' estimateurs d'échelle robustes . Un exemple notable est l’écart absolu médian qui se rapporte à l’écart type sous la forme . Dans un cadre bayésien, il existe un certain nombre de moyens pour estimer de manière fiable l' emplacement d'une distribution à peu près …

32 r bayesian estimation standard-deviation robust

8

Remplacer les valeurs aberrantes par une moyenne

Cette question a été posée par mon ami qui n'est pas averti d'Internet. Je n'ai aucun fond de statistiques et j'ai cherché autour d'Internet pour cette question. La question est: est-il possible de remplacer les valeurs aberrantes par une valeur moyenne? si c'est possible, existe-t-il des références de livres / …

31 mean outliers robust winsorizing

2

Les intervalles de confiance à 50% sont-ils estimés de manière plus robuste que les intervalles de confiance à 95%?

Ma question découle de ce commentaire sur un article de blog d'Andrew Gelman dans lequel il préconise l'utilisation d'intervalles de confiance de 50% au lieu d'intervalles de confiance de 95%, mais pas au motif qu'ils sont plus solidement estimés: Je préfère des intervalles de 50% à 95% pour 3 raisons: …

30 confidence-interval assumptions robust

2

Pourquoi devrions-nous utiliser des erreurs t au lieu d'erreurs normales?

Dans ce billet de blog d'Andrew Gelman, il y a le passage suivant: Les modèles bayésiens d'il y a 50 ans semblent désespérément simples (sauf, bien sûr, pour des problèmes simples), et je m'attends à ce que les modèles bayésiens d'aujourd'hui semblent désespérément simples, dans 50 ans. (Juste pour un …

30 distributions bayesian normal-distribution model robust

2

Erreur «le système est singulièrement calculateur» lors de l'exécution d'un glm

J'utilise le package robustbase pour exécuter une estimation glm. Cependant, lorsque je le fais, j'obtiens l'erreur suivante: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Qu'est-ce que cela signifie / indique? Et comment puis-je le déboguer? PS. Si vous avez besoin …

29 r generalized-linear-model robust

4

Pourquoi RANSAC n'est-il pas le plus utilisé en statistique?

Issu du domaine de la vision par ordinateur, j'ai souvent utilisé la méthode RANSAC (Random Sample Consensus) pour ajuster les modèles aux données avec beaucoup de valeurs aberrantes. Cependant, je ne l'ai jamais vu utilisé par les statisticiens, et j'ai toujours eu l'impression qu'il n'était pas considéré comme une méthode …

26 outliers bootstrap robust

5

Quelle est la robustesse du test t d'échantillons indépendants lorsque les distributions des échantillons ne sont pas normales?

J'ai lu que le test t est "raisonnablement robuste" lorsque les distributions des échantillons s'écartent de la normalité. Bien sûr, c'est la distribution d'échantillonnage des différences qui est importante. J'ai des données pour deux groupes. L'un des groupes est fortement asymétrique sur la variable dépendante. La taille de l'échantillon est …

24 t-test assumptions normality-assumption robust

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Un

J'ai estimé un modèle linéaire robuste Ravec des poids MM en utilisant le rlm()dans le package MASS. `` R '' ne fournit pas de valeur pour le modèle, mais j'aimerais en avoir une s'il s'agit d'une quantité significative. Je suis également intéressé de savoir s'il y a un sens à …

19 r goodness-of-fit r-squared robust rlm

5

Quelles méthodes de corrélation robustes sont réellement utilisées?

Je prévois de faire une étude de simulation où je compare les performances de plusieurs techniques de corrélation robustes avec différentes distributions (asymétriques, avec des valeurs aberrantes, etc.). Par robuste , je veux dire le cas idéal d'être robuste contre a) les distributions asymétriques, b) les valeurs aberrantes et c) …

18 r correlation robust spearman-rho winsorizing

4

Propriétés moyennes et médianes

Quelqu'un peut-il m'expliquer clairement la logique mathématique qui relierait deux énoncés (a) et (b) ensemble? Ayons un ensemble de valeurs (une certaine distribution). Maintenant, a) La médiane ne dépend pas de chaque valeur [elle dépend seulement d'une ou deux valeurs moyennes]; b) La médiane est le lieu de la somme …

18 mean median robust sensitivity-analysis

Questions marquées «robust»