Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Est-il possible de visualiser les résultats de l'analyse des composants principaux de manière à donner plus d'informations que les simples tableaux récapitulatifs? Est-il possible de le faire lorsque le nombre d'observations est important, disons ~ 1e4? Et est-il possible de le faire dans R [autres environnements bienvenus]?
Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment: Coefficients biaisés loin de zéro. Erreurs standard trop petites et intervalles de confiance trop étroits. Testez les statistiques …
Wikipédia explique: Pour un ensemble de données, la moyenne est la somme des valeurs divisée par le nombre de valeurs. Cette définition correspond cependant à ce que j'appelle «moyen» (du moins c'est ce dont je me souviens avoir appris). Wikipédia cite encore une fois: Il existe d'autres mesures statistiques qui …
Bien que cette question soit quelque peu subjective, j'espère qu'elle peut être considérée comme une bonne question subjective selon les directives de la FAQ . Il est basé sur une question que Olle Häggström m'a posée il y a un an et bien que j'y réfléchisse, je n'ai pas de …
J'ai trouvé quelques distributions pour lesquelles BUGS et R ont des paramétrisations différentes: Normal, log-Normal et Weibull. Pour chacun d'eux, je suppose que le deuxième paramètre utilisé par R doit être transformé inversement (1 / paramètre) avant d'être utilisé dans BUGS (ou JAGS dans mon cas). Quelqu'un connaît-il une liste …
Dans mon travail, nous comparons les classements prévus aux classements réels pour certains ensembles de données. Jusqu'à récemment, nous utilisions Kendall-Tau seul. Un groupe travaillant sur un projet similaire a suggéré d'essayer d'utiliser le Goodman-Kruskal Gamma à la place, et qu'ils l'ont préféré. Je me demandais quelles étaient les différences …
En mai 2010, l'utilisateur de Wikipédia Mcorazao a ajouté une phrase à l' article sur l' asymétrie : "Une valeur nulle indique que les valeurs sont distribuées de manière relativement uniforme des deux côtés de la moyenne, ce qui implique généralement, mais pas nécessairement, une distribution symétrique." Cependant, la page …
Il est bien connu que les intervalles de confiance et le test des hypothèses statistiques sont étroitement liés. Mes questions portent sur la comparaison des moyennes pour deux groupes sur la base d'une variable numérique. Supposons que cette hypothèse soit testée à l'aide du test t. De l'autre côté, on …
Imaginer Vous exécutez une régression linéaire avec quatre prédicteurs numériques (IV1, ..., IV4) Lorsque seul IV1 est inclus comme prédicteur, la version bêta normalisée est +.20 Lorsque vous incluez également IV2 à IV4, le signe du coefficient de régression normalisé de IV1 est inversé -.25(c'est- à -dire qu'il est devenu …
Parfois, dans les rapports, j'inclus un avertissement concernant les valeurs de p et d'autres statistiques inférentielles que j'ai fournies. Je dis que puisque l'échantillon n'était pas aléatoire, de telles statistiques ne s'appliqueraient pas strictement. Ma formulation spécifique est généralement donnée dans une note de bas de page: "Alors que, strictement …
Contexte: En réponse à une question précédente sur la recherche reproductible, Jake a écrit Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient changé. Donc, dans cette archive, nous incluons également les …
J'essaie d'analyser certaines données à l'aide d'un modèle à effets mixtes. Les données que j'ai recueillies représentent le poids de certains jeunes animaux de génotype différent au fil du temps. J'utilise l'approche proposée ici: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ En particulier, j'utilise la solution # 2 J'ai donc quelque chose comme require(nlme) model <- …
Prenons et et supposons que nous modélisons la tâche de prédire y étant donné x en utilisant la régression logistique. Quand les coefficients de régression logistique peuvent-ils être écrits sous forme fermée? y ∈ { 0 , 1 }x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} Un exemple est lorsque nous utilisons un …
Outre gnuplot et ggobi , quels outils open source les gens utilisent-ils pour visualiser des données multidimensionnelles? Gnuplot est plus ou moins un package de base de traçage. Ggobi peut faire un certain nombre de choses astucieuses, telles que: animer des données le long d'une dimension ou parmi des collections …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.