Comme contexte: lorsque je travaille avec un ensemble de données très volumineux, on me demande parfois si nous pouvons créer un ensemble de données synthétiques où nous «connaissons» la relation entre les prédicteurs et la variable de réponse, ou les relations entre les prédicteurs. Au fil des ans, je semble …
Dans la régression linéaire, chaque valeur prédite est supposée avoir été choisie dans une distribution normale de valeurs possibles. Voir ci-dessous. Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale? Comment la régression linéaire utilise-t-elle cette hypothèse? Que faire si les valeurs possibles ne sont pas normalement distribuées?
Ceci est mon premier message, alors s'il vous plaît, ne vous gênez pas si je ne respecte pas certaines normes! J'ai fait une recherche pour ma question et rien n'est venu. Ma question concerne principalement les différences pratiques entre la modélisation linéaire générale (GLM) et la modélisation linéaire généralisée (GZLM). …
Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je …
Des collègues me demandent de l'aide à ce sujet, que je ne connais pas vraiment. Ils ont fait des hypothèses sur le rôle de certaines variables latentes dans une étude, et un arbitre leur a demandé de formaliser cela en SEM. Comme ce dont ils ont besoin ne semble pas …
J'ai suivi plusieurs cours de statistiques au collège mais j'ai trouvé que mes études étaient très axées sur la théorie. Je me demandais si certains d'entre vous avaient un texte en statistique appliquée (au niveau universitaire) que vous recommandez ou avec une bonne expérience.
Quand préférerait-on utiliser un modèle autorégressif conditionnel plutôt qu'un modèle autorégressif simultané lors de la modélisation de données aériennes géoréférencées autocorrélées?
J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise …
Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …
La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M …
Lorsque j’estime un modèle de différence dans les différences avec deux périodes, le modèle de régression équivalent serait une. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} où est un mannequin qui est égal à 1 si l'observation provient du groupe de traitementTreatmentTreatmentTreatment et est un mannequin qui …
Je construis un modèle VAR pour prévoir le prix d'un actif et je voudrais savoir si ma méthode est statistiquement solide, si les tests que j'ai inclus sont pertinents et si d'autres sont nécessaires pour assurer une prévision fiable basée sur mes variables d'entrée. Ci-dessous se trouve mon processus actuel …
Je suis un lycéen et je travaille sur un projet de programmation informatique, mais je n'ai pas beaucoup d'expérience en statistique et en modélisation de données au-delà d'un cours de statistique au lycée donc je suis un peu confus. Fondamentalement, j'ai une liste raisonnablement longue (supposons qu'elle soit suffisamment grande …
Nassim Taleb, de renommée Black Swan (ou infamie), a développé le concept et développé ce qu'il appelle "une carte des limites de la statistique" . Son argument de base est qu'il existe un type de problème de décision où l'utilisation de n'importe quel modèle statistique est nuisible. Il s'agirait de …
En utilisant le coefficient de corrélation de Pearson, j'ai plusieurs variables qui sont hautement corrélées ( et pour 2 paires de variables qui sont dans mon modèle).ρ = 0,978ρ=0,978\rho = 0.978ρ = 0,989ρ=0,989\rho = 0.989 La raison pour laquelle certaines variables sont fortement corrélées est qu’une variable est utilisée dans …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.