Statistiques et Big Data

3

Est-il important que les statisticiens apprennent l'apprentissage automatique?

L'apprentissage automatique est-il un sujet important pour tout statisticien de se familiariser? Il semble que l'apprentissage automatique soit une statistique. Pourquoi les programmes de statistiques (premier cycle et cycles supérieurs) ne nécessitent-ils pas un apprentissage automatique?

22 machine-learning careers

2

Machines Boltzmann restreintes vs réseaux de neurones multicouches

Je voulais expérimenter avec un réseau de neurones pour un problème de classification auquel je suis confronté. Je suis tombé sur des articles qui parlent de RBM. Mais d'après ce que je peux comprendre, ils ne sont pas différents d'avoir un réseau neuronal multicouche. Est-ce exact? De plus, je travaille …

22 r machine-learning classification neural-networks

5

RandomForest de R ne peut pas gérer plus de 32 niveaux. Quelle est la solution de contournement?

Le package randomForest de R ne peut pas gérer le facteur avec plus de 32 niveaux. Lorsqu'il reçoit plus de 32 niveaux, il émet un message d'erreur: Ne peut pas gérer les prédicteurs catégoriels avec plus de 32 catégories. Mais les données dont je dispose ont plusieurs facteurs. Certains d'entre …

22 r random-forest many-categories

2

Correction du biais dans la variance pondérée

Pour la variance non pondérée il existe la variance d'échantillon corrigée du biais, lorsque la moyenne a été estimée à partir des mêmes données: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 J'examine la moyenne et la variance pondérées et je me demande quelle est la correction de biais appropriée pour la variance …

22 variance unbiased-estimator weighted-mean weighted-data bias-correction

3

Détermination de la taille de l'échantillon en toute sécurité pour les tests A / B

Je suis un ingénieur logiciel qui cherche à construire un outil de test A / B. Je n'ai pas une solide expérience en statistiques, mais j'ai fait pas mal de lecture au cours des derniers jours. Je suis la méthodologie décrite ici et résumerai les points pertinents ci-dessous. L'outil permettra …

22 hypothesis-testing statistical-significance proportion ab-test

5

Quand la régression quantile est-elle pire que l'OLS?

Mis à part certaines circonstances uniques où nous devons absolument comprendre la relation moyenne conditionnelle, quelles sont les situations où un chercheur devrait choisir l'OLS plutôt que la régression quantile? Je ne veux pas que la réponse soit "s'il n'y a aucune utilité à comprendre les relations de queue", car …

22 least-squares econometrics regression-strategies quantile-regression semiparametric

4

Valeur attendue d'un logarithme naturel

Je sais que avec constantes, donc étant donné , c'est facile à résoudre. Je sais aussi que vous ne pouvez pas l'appliquer quand c'est une fonction non linéaire, comme dans ce cas , et pour résoudre cela, je dois faire une approximation avec Taylor. Donc ma question est de savoir …

22 mathematical-statistics

3

Clustering ou classification supervisée?

La deuxième question est que j'ai trouvé dans une discussion quelque part sur le Web parler de "clustering supervisé", pour autant que je sache, le clustering n'est pas supervisé, alors quelle est exactement la signification derrière "clustering supervisé"? Quelle est la différence en ce qui concerne la "classification"? Il existe …

22 clustering classification unsupervised-learning statistical-learning

3

Modélisation de la régression avec variance inégale

Je voudrais adapter un modèle linéaire (lm) où la variance des résidus dépend clairement de la variable explicative. Pour ce faire, je sais utiliser glm avec la famille Gamma pour modéliser la variance, puis mettre son inverse dans les poids de la fonction lm (exemple: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) Je me …

22 r generalized-linear-model linear-model heteroscedasticity gamlss

1

Les estimateurs incohérents sont-ils toujours préférables?

La cohérence est évidemment un estimateur de propriété naturel et important, mais y a-t-il des situations où il peut être préférable d'utiliser un estimateur incohérent plutôt que cohérent? Plus précisément, existe-t-il des exemples d'estimateur incohérent qui surpasse un estimateur cohérent raisonnable pour tout fini (par rapport à une fonction de …

22 estimation consistency

5

Variance d'une variable aléatoire bornée

Supposons qu'une variable aléatoire ait une borne inférieure et une borne supérieure [0,1]. Comment calculer la variance d'une telle variable?

22 variance standard-deviation measurement-error

1

Dans R, étant donné une sortie d'optim avec une matrice de Hesse, comment calculer les intervalles de confiance des paramètres en utilisant la matrice de Hesse?

Étant donné une sortie d'optim avec une matrice de Hesse, comment calculer les intervalles de confiance des paramètres à l'aide de la matrice de Hesse? fit<-optim(..., hessian=T) hessian<-fit$hessian Je m'intéresse principalement au contexte de l'analyse du maximum de vraisemblance, mais je suis curieux de savoir si la méthode peut être …

22 r maximum-likelihood

4

Comment écrire une formule de modèle linéaire avec 100 variables dans R

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Existe-t-il un moyen simple dans R de créer une régression linéaire sur un modèle avec 100 paramètres dans R? Disons que …

22 r

2

Comment puis-je adapter un ensemble de données à une distribution de Pareto dans R?

Disons, disons, les données suivantes: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 Vous voulez un moyen simple d'adapter cela (et plusieurs autres jeux de données) à une distribution de Pareto. Idéalement, il produirait les valeurs théoriques correspondantes, moins idéalement les paramètres.

22 r pareto-distribution

4

Que dire à un client qui pense que les intervalles de confiance sont trop larges pour être utiles?

Supposons que je suis consultant et que je souhaite expliquer à mon client l'utilité de l'intervalle de confiance. Le client me dit que mes intervalles sont trop larges pour être utiles et il préférerait en utiliser des moitié moins larges. Comment dois-je répondre?

22 confidence-interval interpretation