Statistiques et Big Data

3

Auto.arima avec des données quotidiennes: comment capturer la saisonnalité / périodicité?

Je monte un modèle ARIMA sur une série temporelle quotidienne. Les données sont collectées quotidiennement du 02-01-2010 au 30-07-2011 et concernent les ventes de journaux. Puisqu'une tendance hebdomadaire des ventes peut être trouvée (la quantité moyenne quotidienne d'exemplaires vendus est généralement la même du lundi au vendredi, puis augmente le …

21 r time-series arima seasonality

5

Comment démarrer avec l'application de la théorie de la réponse aux éléments et quel logiciel utiliser?

Le contexte J'ai lu sur la théorie de la réponse aux éléments et je trouve cela fascinant. Je crois que je comprends les bases, mais je me demande comment appliquer les techniques statistiques liées au domaine. Vous trouverez ci-dessous deux articles similaires au domaine dans lequel j'aimerais appliquer le RTI: …

21 psychometrics latent-variable irt

1

Régression logistique des séries chronologiques

Je voudrais utiliser un modèle de régression logistique binaire dans le contexte des données en streaming (séries temporelles multidimensionnelles) afin de prédire la valeur de la variable dépendante des données (ie ligne) qui vient d'arriver, compte tenu des observations passées. Pour autant que je sache, la régression logistique est traditionnellement …

21 r time-series logistic

3

Qu'est-ce que le «biais» intuitivement?

J'ai du mal à saisir le concept de biais dans le contexte de l'analyse de régression linéaire. Quelle est la définition mathématique du biais? Qu'est-ce qui est biaisé et pourquoi / comment? Exemple illustratif?

21 regression terminology bias definition

1

Ajuster un modèle exponentiel aux données

Cette question a été migrée à partir de Stack Overflow car il est possible d'y répondre sur la validation croisée. Migré il y a 8 ans . J'ai 2 variables, toutes deux de la classe "numérique": > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 …

21 r

4

Dans quelle mesure la distinction entre corrélation et causalité est-elle pertinente pour Google?

Le contexte Une question populaire sur ce site est " Quels sont les péchés statistiques courants? ". L' un des péchés mentionnés suppose que « la corrélation implique un lien de causalité ... » lien Ensuite, dans les commentaires avec 5 votes positifs, il est suggéré que: "Google gagne 65 …

21 machine-learning causality

4

Les arbres de décision sont-ils presque toujours des arbres binaires?

Presque chaque exemple d'arbre de décision que j'ai rencontré se trouve être un arbre binaire. Est-ce à peu près universel? La plupart des algorithmes standard (C4.5, CART, etc.) prennent-ils uniquement en charge les arbres binaires? D'après ce que je comprends, CHAID n'est pas limité aux arbres binaires, mais cela semble …

21 machine-learning data-mining cart

5

Exemple de fort coefficient de corrélation avec une valeur p élevée

Je me demandais, est-il possible d'avoir un très fort coefficient de corrélation (disons .9 ou plus), avec une valeur p élevée (disons .25 ou plus)? Voici un exemple d'un faible coefficient de corrélation, avec une valeur p élevée: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0,03908927, p …

21 r hypothesis-testing correlation

1

Distribution marginale de la diagonale d'une matrice distribuée de Wishart inverse

Supposons que . Je m'intéresse à la distribution marginale des éléments diagonaux . Il existe quelques résultats simples sur la distribution des sous-matrices de (au moins certaines répertoriées sur Wikipedia). À partir de cela, je peux comprendre que la distribution marginale de tout élément unique sur la diagonale est le …

21 distributions probability pdf

2

Comment utiliser les poids dans la fonction lm dans R?

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Quelqu'un pourrait-il offrir des conseils sur la façon d'utiliser l' weightsargument dans la lmfonction de R ? Supposons, par exemple, que …

21 r regression

3

Régression de Poisson vs régression par les moindres carrés du nombre de journaux?

Une régression de Poisson est un GLM avec une fonction log-link. Une autre façon de modéliser les données de comptage non distribuées normalement est de prétraiter en prenant le journal (ou plutôt, le journal (1 + compte) pour gérer les 0). Si vous effectuez une régression des moindres carrés sur …

21 regression poisson-distribution generalized-linear-model

2

Difficulté de tester la linéarité en régression

Dans la modélisation statistique: les deux cultures, Leo Breiman écrit La pratique appliquée actuelle consiste à vérifier l'ajustement du modèle de données à l'aide de tests d'adéquation et d'analyse résiduelle. À un moment donné, il y a quelques années, j'ai mis en place un problème de régression simulé en sept …

21 regression goodness-of-fit

2

Validation croisée (généralisation des erreurs) après la sélection du modèle

Remarque: le cas est n >> p Je lis Éléments d'apprentissage statistique et il y a diverses mentions sur la «bonne» façon de faire la validation croisée (par exemple page 60, page 245). Plus précisément, ma question est de savoir comment évaluer le modèle final (sans ensemble de test séparé) …

21 machine-learning model-selection data-mining cross-validation

4

Distributions antérieures faiblement informatives pour les paramètres d'échelle

J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise …

21 distributions bayesian modeling prior maximum-entropy

4

Quelle est la relation entre l'estimateur et l'estimation?

21 estimation terminology estimators