Statistiques et Big Data

3

Est-il possible de visualiser les résultats de l'analyse des composants principaux de manière à donner plus d'informations que les simples tableaux récapitulatifs? Est-il possible de le faire lorsque le nombre d'observations est important, disons ~ 1e4? Et est-il possible de le faire dans R [autres environnements bienvenus]?

31 r data-visualization pca biplot

3

Pourquoi la sélection des variables est-elle nécessaire?

Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment: Coefficients biaisés loin de zéro. Erreurs standard trop petites et intervalles de confiance trop étroits. Testez les statistiques …

31 modeling feature-selection

5

Quelle est la différence entre «valeur moyenne» et «moyenne»?

Wikipédia explique: Pour un ensemble de données, la moyenne est la somme des valeurs divisée par le nombre de valeurs. Cette définition correspond cependant à ce que j'appelle «moyen» (du moins c'est ce dont je me souviens avoir appris). Wikipédia cite encore une fois: Il existe d'autres mesures statistiques qui …

31 mean interpretation average

1

Y a-t-il des leçons statistiques de l'épisode «Bible Code»

Bien que cette question soit quelque peu subjective, j'espère qu'elle peut être considérée comme une bonne question subjective selon les directives de la FAQ . Il est basé sur une question que Olle Häggström m'a posée il y a un an et bien que j'y réfléchisse, je n'ai pas de …

31 hypothesis-testing data-mining

1

Pour quelles distributions les paramétrisations dans BUGS et R sont-elles différentes?

J'ai trouvé quelques distributions pour lesquelles BUGS et R ont des paramétrisations différentes: Normal, log-Normal et Weibull. Pour chacun d'eux, je suppose que le deuxième paramètre utilisé par R doit être transformé inversement (1 / paramètre) avant d'être utilisé dans BUGS (ou JAGS dans mon cas). Quelqu'un connaît-il une liste …

31 r distributions bugs jags parameterization

3

Comment les corrélations gamma Goodman-Kruskal et Kendall tau ou Spearman rho se comparent-elles?

Dans mon travail, nous comparons les classements prévus aux classements réels pour certains ensembles de données. Jusqu'à récemment, nous utilisions Kendall-Tau seul. Un groupe travaillant sur un projet similaire a suggéré d'essayer d'utiliser le Goodman-Kruskal Gamma à la place, et qu'ils l'ont préféré. Je me demandais quelles étaient les différences …

31 spearman-rho kendall-tau goodman-kruskal-gamma

6

Quelqu'un peut-il offrir un exemple de distribution unimodale qui a une asymétrie de zéro mais qui n'est pas symétrique?

En mai 2010, l'utilisateur de Wikipédia Mcorazao a ajouté une phrase à l' article sur l' asymétrie : "Une valeur nulle indique que les valeurs sont distribuées de manière relativement uniforme des deux côtés de la moyenne, ce qui implique généralement, mais pas nécessairement, une distribution symétrique." Cependant, la page …

31 distributions expected-value skewness

3

Relation entre l'intervalle de confiance et le test d'hypothèse statistique pour le test t

Il est bien connu que les intervalles de confiance et le test des hypothèses statistiques sont étroitement liés. Mes questions portent sur la comparaison des moyennes pour deux groupes sur la base d'une variable numérique. Supposons que cette hypothèse soit testée à l'aide du test t. De l'autre côté, on …

31 hypothesis-testing confidence-interval

3

Coefficients de régression qui inversent le signe après avoir inclus d'autres prédicteurs

Imaginer Vous exécutez une régression linéaire avec quatre prédicteurs numériques (IV1, ..., IV4) Lorsque seul IV1 est inclus comme prédicteur, la version bêta normalisée est +.20 Lorsque vous incluez également IV2 à IV4, le signe du coefficient de régression normalisé de IV1 est inversé -.25(c'est- à -dire qu'il est devenu …

31 regression predictor

3

Compréhension des vues enchâssées sur les valeurs p

Parfois, dans les rapports, j'inclus un avertissement concernant les valeurs de p et d'autres statistiques inférentielles que j'ai fournies. Je dis que puisque l'échantillon n'était pas aléatoire, de telles statistiques ne s'appliqueraient pas strictement. Ma formulation spécifique est généralement donnée dans une note de bas de page: "Alors que, strictement …

31 inference p-value

6

Comment augmenter la reproductibilité à long terme de la recherche (en particulier en utilisant R et Sweave)

Contexte: En réponse à une question précédente sur la recherche reproductible, Jake a écrit Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient changé. Donc, dans cette archive, nous incluons également les …

31 r reproducible-research project-management

1

Comparaisons multiples sur un modèle à effets mixtes

J'essaie d'analyser certaines données à l'aide d'un modèle à effets mixtes. Les données que j'ai recueillies représentent le poids de certains jeunes animaux de génotype différent au fil du temps. J'utilise l'approche proposée ici: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ En particulier, j'utilise la solution # 2 J'ai donc quelque chose comme require(nlme) model <- …

31 r anova mixed-model multiple-comparisons repeated-measures

2

Quand la régression logistique est-elle résolue sous forme fermée?

Prenons et et supposons que nous modélisons la tâche de prédire y étant donné x en utilisant la régression logistique. Quand les coefficients de régression logistique peuvent-ils être écrits sous forme fermée? y ∈ { 0 , 1 }x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} Un exemple est lorsque nous utilisons un …

31 logistic generalized-linear-model

8

Des outils open source pour visualiser des données multidimensionnelles?

Outre gnuplot et ggobi , quels outils open source les gens utilisent-ils pour visualiser des données multidimensionnelles? Gnuplot est plus ou moins un package de base de traçage. Ggobi peut faire un certain nombre de choses astucieuses, telles que: animer des données le long d'une dimension ou parmi des collections …

31 data-visualization open-source

8

Qu'est-ce qu'un écart type?

Qu'est-ce qu'un écart-type, comment est-il calculé et quelle est son utilisation en statistique?

31 standard-deviation