Statistiques et Big Data outliers

5

Le nettoyage des données peut-il aggraver les résultats de l'analyse statistique?

Une augmentation du nombre de cas et de décès se produit pendant les épidémies (augmentation soudaine du nombre) en raison d'une circulation virale (comme le virus du Nil occidental aux États-Unis en 2002) ou de la diminution de la résistance des personnes ou de la contamination des aliments ou de …

17 time-series forecasting epidemiology outliers

1

PCA robuste vs distance Mahalanobis robuste pour la détection des valeurs aberrantes

L'ACP robuste (telle que développée par Candes et al 2009 ou mieux encore Netrepalli et al 2014 ) est une méthode populaire pour la détection des valeurs aberrantes multivariées , mais la distance de Mahalanobis peut également être utilisée pour la détection des valeurs aberrantes étant donné une estimation robuste …

17 pca outliers covariance-matrix robust anomaly-detection

2

Comment faire des prévisions avec détection de valeurs aberrantes dans R? - Procédure et méthode d'analyse des séries chronologiques

J'ai des données mensuelles sur les séries chronologiques et je voudrais faire des prévisions avec détection des valeurs aberrantes. Voici l'exemple de mon ensemble de données: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 …

16 r time-series forecasting arima outliers

3

Détection robuste des valeurs aberrantes dans les séries financières

Je suis à la recherche de techniques robustes pour supprimer les valeurs aberrantes et les erreurs (quelle qu'en soit la cause) des données de séries chronologiques financières (c.-à-d. Tickdata). Les données financières chronologiques tick-by-tick sont très compliquées. Il contient d'énormes intervalles (temporels) lorsque l'échange est fermé et fait d'énormes sauts …

16 time-series outliers

5

Est-ce de la triche de laisser tomber les valeurs aberrantes basées sur la boîte à moustaches de l'erreur absolue moyenne pour améliorer un modèle de régression

J'ai un modèle de prédiction testé avec quatre méthodes, comme vous pouvez le voir dans la figure ci-dessous. L'attribut prédit par le modèle est compris entre 0 et 8. Vous pouvez remarquer qu'il existe une valeur aberrante supérieure et trois valeurs aberrantes inférieures indiquées par toutes les méthodes. Je me …

15 regression machine-learning multiple-regression predictive-models outliers

2

Signification précise et comparaison entre point influent, point de levier élevé et valeur aberrante?

De Wikipédia Les observations influentes sont celles qui ont un effet relativement important sur les prévisions du modèle de régression. De Wikipédia Les points de levier sont les observations, le cas échéant, faites à des valeurs extrêmes ou périphériques des variables indépendantes de sorte que le manque d'observations voisines signifie …

15 regression outliers leverage

2

Estimation des paramètres d'une distribution normale: médiane au lieu de moyenne?

L'approche courante pour estimer les paramètres d'une distribution normale consiste à utiliser la moyenne et l'écart-type / variance de l'échantillon. Cependant, s'il y a des valeurs aberrantes, la médiane et l'écart médian par rapport à la médiane devraient être beaucoup plus robustes, non? Sur certains ensembles de données que j'ai …

15 normal-distribution estimation outliers robust unbiased-estimator

3

Cours accéléré en estimation moyenne robuste

J'ai un tas (environ 1000) d'estimations et elles sont toutes censées être des estimations de l'élasticité à long terme. Un peu plus de la moitié de ces estimations sont estimées en utilisant la méthode A et le reste en utilisant une méthode B. Quelque part, j'ai lu quelque chose comme …

15 mean outliers robust references

3

Comprendre la bande de confiance d'une régression polynomiale

J'essaie de comprendre le résultat que je vois dans mon graphique ci-dessous. Habituellement, j'ai tendance à utiliser Excel et à obtenir une ligne de régression linéaire, mais dans le cas ci-dessous, j'utilise R et j'obtiens une régression polynomiale avec la commande: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Donc, mes questions …

14 r regression data-visualization outliers

5

Existe-t-il un moyen simple de détecter les valeurs aberrantes?

Je me demande s'il existe un moyen simple de détecter les valeurs aberrantes. Pour l'un de mes projets, qui était essentiellement une corrélation entre le nombre de fois que les répondants participent à une activité physique en une semaine et le nombre de fois qu'ils mangent à l'extérieur de la …

14 correlation outliers

1

Abandon des valeurs aberrantes sur la base de «2,5 fois le RMSE»

Dans Kahneman et Deaton (2010) , les auteurs écrivent ce qui suit:††^\dagger Cette régression explique 37% de la variance, avec une erreur quadratique moyenne (RMSE) de 0,67852. Pour éliminer les valeurs aberrantes et les rapports de revenus peu plausibles, nous avons supprimé les observations dans lesquelles la valeur absolue de …

13 regression outliers

7

Différence entre anomalie et valeur aberrante

Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même chose.

13 outliers terminology anomaly-detection

2

utiliser les informations du voisin pour imputer des données ou trouver des données hors-ligne (dans R)

J'ai un ensemble de données avec l'hypothèse que les voisins les plus proches sont les meilleurs prédicteurs. Juste un exemple parfait de gradient bidirectionnel visualisé- Supposons que nous ayons un cas où peu de valeurs manquent, nous pouvons facilement prédire en fonction des voisins et de la tendance. Matrice de …

13 r prediction outliers data-imputation multiple-imputation

1

LARS vs descente coordonnée pour le lasso

Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de milliers et p<20). Cependant, toute autre …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Séparer deux populations de l'échantillon

J'essaie de séparer deux groupes de valeurs d'un même ensemble de données. Je peux supposer que l'une des populations est normalement distribuée et représente au moins la moitié de la taille de l'échantillon. Les valeurs du second sont à la fois inférieures ou supérieures aux valeurs du premier (la distribution …

13 dataset outliers expectation-maximization

Questions marquées «outliers»