Statistiques et Big Data

14

Algorithme simple pour la détection des valeurs aberrantes en ligne d'une série chronologique générique

Je travaille avec une grande quantité de séries chronologiques. Ces séries temporelles sont essentiellement des mesures de réseau toutes les 10 minutes, et certaines sont périodiques (c'est-à-dire la bande passante), d'autres pas (c'est-à-dire la quantité de trafic de routage). Je voudrais un algorithme simple pour faire une "détection des valeurs …

88 time-series outliers mathematical-statistics real-time

30

Est-il possible de se rappeler les définitions des erreurs de type I et de type II?

Je ne suis pas un statisticien de formation, je suis un ingénieur en logiciel. Pourtant, les statistiques sont nombreuses. En fait, des questions spécifiques concernant les erreurs de type I et de type II se posent souvent au cours de mes études pour l’examen d’associé en développement de logiciel certifié …

88 terminology type-i-and-ii-errors

2

Quelle peur devrions-nous avoir à propos des avertissements de convergence dans lme4

Si nous ajustons un regard, nous pouvons recevoir un avertissement nous indiquant que le modèle a du mal à converger ... par exemple >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Une autre façon de vérifier la …

88 r mixed-model lme4-nlme

3

Qu'est-ce qu'une carence en rang et comment y remédier?

Une régression logistique à l'aide de lme4 se termine par Error in mer_finalize(ans) : Downdated X'X is not positive definite. Une cause probable de cette erreur est apparemment une insuffisance de rang. Qu'est-ce qu'une déficience de rang et comment devrais-je y remédier?

87 r logistic lme4-nlme

5

Quelles sont les principales différences entre K-moyennes et K-voisins les plus proches?

Je sais que k-means n'est pas supervisé et qu'il est utilisé pour la mise en cluster, etc., et que k-NN est supervisé. Mais je voulais connaître des différences concrètes entre les deux?

86 machine-learning k-means k-nearest-neighbour

2

Compte tenu de la puissance des ordinateurs de nos jours, n'y a-t-il jamais une raison de faire un test du chi-carré plutôt que le test exact de Fisher?

Étant donné que le logiciel peut maintenant calculer le test exact de Fisher si facilement de nos jours , existe-t-il des circonstances dans lesquelles, théoriquement ou pratiquement, le test du khi-carré est réellement préférable au test exact de Fisher? Les avantages du test exact de Fisher incluent: mise à l'échelle …

86 chi-squared contingency-tables fishers-exact

3

Quels sont les exemples où un «bootstrap naïf» échoue?

Supposons que je dispose d’un ensemble d’échantillons de données d’une distribution inconnue ou complexe et que je veuille effectuer une inférence sur une statistique TTT des données. Mon inclinaison par défaut est de simplement générer un tas d'échantillons bootstrap avec le remplacement, et calculer ma statistique TTT sur chaque échantillon …

86 hypothesis-testing confidence-interval bootstrap

9

Qu'est-ce qu'un intervalle de confiance?

Je sais approximativement et officieusement ce qu'est un intervalle de confiance. Cependant, je n'arrive pas à comprendre un détail assez important: selon Wikipedia: Un intervalle de confiance ne permet pas de prédire que la vraie valeur du paramètre a une probabilité particulière d’être dans l’intervalle de confiance compte tenu des …

86 confidence-interval definition

9

Y a-t-il une explication intuitive à la multicolinéarité qui pose problème en régression linéaire?

Le wiki aborde les problèmes qui se posent lorsque la multicollinéarité est un problème en régression linéaire. Le problème fondamental est que la multicolinéarité aboutit à des estimations de paramètres instables, ce qui rend très difficile l'évaluation de l'effet des variables indépendantes sur les variables dépendantes. Je comprends les raisons …

85 regression intuition multicollinearity

16

Dans quelles conditions la corrélation implique-t-elle une causalité?

Nous savons tous que le mantra "la corrélation n'implique pas la causalité" est utilisé par tous les étudiants en statistiques de première année. Il y a quelques bons exemples ici pour illustrer l'idée. Mais parfois , la corrélation n'implique la causalité. L'exemple suivant tire de cette page Wikipedia Par exemple, …

85 correlation causality

17

Y compris l'interaction mais pas les effets principaux dans un modèle

Est-il toujours valable d'inclure une interaction bidirectionnelle dans un modèle sans inclure les effets principaux? Et si votre hypothèse ne concerne que l'interaction, avez-vous encore besoin d'inclure les principaux effets?

85 regression modeling interaction regression-coefficients

24

Règles empiriques pour les statistiques «modernes»

J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et …

85 modeling eda rule-of-thumb

4

Comment choisir la bibliothèque nlme ou lme4 R pour les modèles à effets mixtes?

Je s'adapter quelques modèles à effets mixtes ( en particulier les modèles longitudinaux) en utilisant lme4dans Rmais je voudrais vraiment maîtriser les modèles et le code qui va avec eux. Cependant, avant de plonger avec les deux pieds (et d'acheter des livres), je veux être sûr d'apprendre la bonne bibliothèque. …

85 r mixed-model lme4-nlme

8

Si la moyenne est si sensible, pourquoi l'utiliser en premier lieu?

On sait que la médiane résiste aux valeurs aberrantes. Si tel est le cas, quand et pourquoi utiliserions-nous la moyenne en premier lieu? Une chose à laquelle je peux penser est peut-être de comprendre la présence de valeurs aberrantes, c’est-à-dire que si la médiane est loin de la moyenne, la …

84 mathematical-statistics mean median

1

Comment appliquer le réseau de neurones à la prévision de séries chronologiques?

Je suis novice en apprentissage automatique et j'essaie de comprendre comment appliquer le réseau de neurones à la prévision de séries chronologiques. J'ai trouvé des ressources liées à ma requête, mais il me semble que je suis encore un peu perdu. Je pense qu'une explication de base sans trop de …

83 time-series forecasting neural-networks