Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Ajuster un terme sinusoïdal aux données

Bien que j'ai lu ce post, je n'ai toujours aucune idée de comment l'appliquer à mes propres données et j'espère que quelqu'un pourra m'aider. J'ai les données suivantes: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, …

26 r regression fitting

Quel est le nombre minimum recommandé de groupes pour un facteur d'effets aléatoires?

J'utilise un modèle mixte dans R( lme4) pour analyser certaines données de mesures répétées. J'ai une variable de réponse (teneur en fibres des matières fécales) et 3 effets fixes (masse corporelle, etc.). Mon étude ne compte que 6 participants, avec 16 mesures répétées pour chacun (même si deux n'ont que …

26 mixed-model sample-size

Conversion d'erreur standard en écart-type?

Est-il judicieux de convertir l'erreur standard en écart type? Et si oui, cette formule est-elle appropriée? SE=SDN−−√SE=SDNSE = \frac{SD}{\sqrt{N}}

26 standard-deviation standard-error

Quelles sont les pratiques standard pour créer des ensembles de données synthétiques?

Comme contexte: lorsque je travaille avec un ensemble de données très volumineux, on me demande parfois si nous pouvons créer un ensemble de données synthétiques où nous «connaissons» la relation entre les prédicteurs et la variable de réponse, ou les relations entre les prédicteurs. Au fil des ans, je semble …

26 modeling reproducible-research synthetic-data

Qu'est-ce que le thêta dans une régression binomiale négative équipée de R?

J'ai une question concernant une régression binomiale négative: supposons que vous ayez les commandes suivantes: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (Notez que les voitures sont un ensemble de données qui est disponible dans R, et je ne me soucie pas vraiment si ce modèle a du sens.) Ce que j'aimerais …

26 regression generalized-linear-model negative-binomial

Les quadrillages et les arrière-plans gris sont-ils indésirables et doivent-ils être utilisés uniquement à titre exceptionnel?

Il semble que la plupart des autorités s'accordent à dire que les lignes de quadrillage sombres ou autrement proéminentes dans les tracés sont «indésirables» selon toute définition raisonnable et distraient le spectateur du message dans le corps principal du graphique. Je ne prendrai donc pas la peine de donner des …

26 data-visualization ggplot2

Quelle est la probabilité que je descende d'une personne née en 1300?

En d'autres termes, sur la base de ce qui suit, qu'est-ce que p? Afin d'en faire un problème mathématique plutôt que l'anthropologie ou les sciences sociales, et pour simplifier le problème, supposons que les partenaires sont sélectionnés avec une probabilité égale dans l'ensemble de la population, sauf que les frères …

26 probability stochastic-processes genetics

Différences entre MANOVA et ANOVA à mesures répétées?

Quelle est la différence entre une ANOVA à mesures répétées sur un facteur (par exemple, une condition expérimentale) et une MANOVA? En particulier, un site Web sur lequel je suis tombé a suggéré que la MANOVA ne fait pas la même hypothèse de sphéricité que les mesures répétées de l'ANOVA, …

26 anova repeated-measures manova sphericity

Est-il utile de tester la normalité avec un échantillon de très petite taille (par exemple, n = 6)?

J'ai un échantillon de 6. Dans ce cas, est-il judicieux de tester la normalité en utilisant le test de Kolmogorov-Smirnov? J'ai utilisé SPSS. J'ai un très petit échantillon car il faut du temps pour obtenir chacun. Si cela n'a pas de sens, combien d'échantillons est le nombre le plus bas …

26 hypothesis-testing normality-assumption kolmogorov-smirnov power

Importer le cours des actions de Yahoo Finance dans R?

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Je voudrais importer le prix de l'action "Last Trade" de Yahoo Finance dans R. L'intention est de travailler avec des données …

26 r

Mesurer la précision d'un modèle basé sur la régression logistique

J'ai un modèle de régression logistique formé que j'applique à un ensemble de données de test. La variable dépendante est binaire (booléenne). Pour chaque échantillon de l'ensemble de données de test, j'applique le modèle de régression logistique pour générer un% de probabilité que la variable dépendante soit vraie. Ensuite, j'enregistre …

26 regression logistic r-squared

J'ai rencontré cette densité l'autre jour. Quelqu'un a-t-il donné un nom à cela? f(x)=log(1+x−2)/2πf(x)=log⁡(1+x−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi La densité est infinie à l'origine et elle a aussi des queues grasses. Je l'ai vu utilisé comme une distribution antérieure dans un contexte où de nombreuses observations devaient être …

26 distributions probability

Comment peut-on démontrer empiriquement dans R à quelles méthodes de validation croisée l'AIC et le BIC sont équivalents?

Dans une question ailleurs sur ce site, plusieurs réponses ont mentionné que l'AIC est équivalent à la validation croisée avec absence de contact (LOO) et que le BIC est équivalent à la validation croisée K-fold. Existe-t-il un moyen de démontrer empiriquement cela dans R de telle sorte que les techniques …

26 r aic cross-validation bic

Recommandations de livres pour l'analyse multivariée

Je souhaite obtenir des livres sur l'analyse multivariée et j'ai besoin de vos recommandations. Les livres gratuits sont toujours les bienvenus, mais si vous connaissez un excellent livre MVA non libre, veuillez le préciser.

26 references multivariate-analysis

Pourquoi RANSAC n'est-il pas le plus utilisé en statistique?

Issu du domaine de la vision par ordinateur, j'ai souvent utilisé la méthode RANSAC (Random Sample Consensus) pour ajuster les modèles aux données avec beaucoup de valeurs aberrantes. Cependant, je ne l'ai jamais vu utilisé par les statisticiens, et j'ai toujours eu l'impression qu'il n'était pas considéré comme une méthode …

26 outliers bootstrap robust

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.