Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je monte un modèle ARIMA sur une série temporelle quotidienne. Les données sont collectées quotidiennement du 02-01-2010 au 30-07-2011 et concernent les ventes de journaux. Puisqu'une tendance hebdomadaire des ventes peut être trouvée (la quantité moyenne quotidienne d'exemplaires vendus est généralement la même du lundi au vendredi, puis augmente le …
Le contexte J'ai lu sur la théorie de la réponse aux éléments et je trouve cela fascinant. Je crois que je comprends les bases, mais je me demande comment appliquer les techniques statistiques liées au domaine. Vous trouverez ci-dessous deux articles similaires au domaine dans lequel j'aimerais appliquer le RTI: …
Je voudrais utiliser un modèle de régression logistique binaire dans le contexte des données en streaming (séries temporelles multidimensionnelles) afin de prédire la valeur de la variable dépendante des données (ie ligne) qui vient d'arriver, compte tenu des observations passées. Pour autant que je sache, la régression logistique est traditionnellement …
J'ai du mal à saisir le concept de biais dans le contexte de l'analyse de régression linéaire. Quelle est la définition mathématique du biais? Qu'est-ce qui est biaisé et pourquoi / comment? Exemple illustratif?
Cette question a été migrée à partir de Stack Overflow car il est possible d'y répondre sur la validation croisée. Migré il y a 8 ans . J'ai 2 variables, toutes deux de la classe "numérique": > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 …
Le contexte Une question populaire sur ce site est " Quels sont les péchés statistiques courants? ". L' un des péchés mentionnés suppose que « la corrélation implique un lien de causalité ... » lien Ensuite, dans les commentaires avec 5 votes positifs, il est suggéré que: "Google gagne 65 …
Presque chaque exemple d'arbre de décision que j'ai rencontré se trouve être un arbre binaire. Est-ce à peu près universel? La plupart des algorithmes standard (C4.5, CART, etc.) prennent-ils uniquement en charge les arbres binaires? D'après ce que je comprends, CHAID n'est pas limité aux arbres binaires, mais cela semble …
Je me demandais, est-il possible d'avoir un très fort coefficient de corrélation (disons .9 ou plus), avec une valeur p élevée (disons .25 ou plus)? Voici un exemple d'un faible coefficient de corrélation, avec une valeur p élevée: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0,03908927, p …
Supposons que . Je m'intéresse à la distribution marginale des éléments diagonaux . Il existe quelques résultats simples sur la distribution des sous-matrices de (au moins certaines répertoriées sur Wikipedia). À partir de cela, je peux comprendre que la distribution marginale de tout élément unique sur la diagonale est le …
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Quelqu'un pourrait-il offrir des conseils sur la façon d'utiliser l' weightsargument dans la lmfonction de R ? Supposons, par exemple, que …
Une régression de Poisson est un GLM avec une fonction log-link. Une autre façon de modéliser les données de comptage non distribuées normalement est de prétraiter en prenant le journal (ou plutôt, le journal (1 + compte) pour gérer les 0). Si vous effectuez une régression des moindres carrés sur …
Dans la modélisation statistique: les deux cultures, Leo Breiman écrit La pratique appliquée actuelle consiste à vérifier l'ajustement du modèle de données à l'aide de tests d'adéquation et d'analyse résiduelle. À un moment donné, il y a quelques années, j'ai mis en place un problème de régression simulé en sept …
Remarque: le cas est n >> p Je lis Éléments d'apprentissage statistique et il y a diverses mentions sur la «bonne» façon de faire la validation croisée (par exemple page 60, page 245). Plus précisément, ma question est de savoir comment évaluer le modèle final (sans ensemble de test séparé) …
J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.