Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

6
Random Forest - Comment gérer l'overfitting
J'ai une formation en informatique mais j'essaie de m'enseigner la science des données en résolvant des problèmes sur Internet. Je travaille sur ce problème depuis deux semaines (environ 900 lignes et 10 fonctionnalités). J'utilisais initialement la régression logistique, mais maintenant je suis passé aux forêts aléatoires. Lorsque j'exécute mon modèle …

4
Régression logistique en R (rapport de cotes)
J'essaie d'entreprendre une analyse de régression logistique en format R. J'ai suivi des cours sur ce matériel avec STATA. Je trouve très difficile de reproduire la fonctionnalité dans R. Est-il mature dans ce domaine? Il semble y avoir peu de documentation ou de conseils disponibles. La production du rapport de …
41 r  logistic  odds-ratio 



4
Pourquoi la fonction sigmoïde au lieu de rien d'autre?
Pourquoi la fonction sigmoïde standard de facto, , est-elle si populaire dans les réseaux de neurones (non profonds) et la régression logistique?11 + e- x11+e−x\frac{1}{1+e^{-x}} Pourquoi n'utilisons-nous pas beaucoup d'autres fonctions pouvant être dérivées, avec un temps de calcul plus rapide ou une décroissance plus lente (de sorte qu'un gradient …

6
Quand utiliser des simulations?
C'est donc une question très simple et stupide. Cependant, lorsque j'étais à l'école, je n'accordais que très peu d'attention à la notion de simulation en classe, ce qui me laissait un peu terrifié à l'idée de ce processus. Pouvez-vous expliquer le processus de simulation en termes simples? (pourrait être pour …
40 simulation 


4
Rappel et précision dans la classification
J'ai lu des définitions de rappel et de précision, bien que ce soit chaque fois dans le contexte de la recherche d'informations. Je me demandais si quelqu'un pourrait expliquer cela un peu plus dans un contexte de classification et peut-être illustrer quelques exemples. Disons par exemple que j'ai un classificateur …

3
Comment présenter les résultats d'un lasso utilisant glmnet?
J'aimerais trouver des prédicteurs pour une variable dépendante continue sur un ensemble de 30 variables indépendantes. J'utilise la régression de Lasso telle qu'implémentée dans le paquet glmnet de R. Voici du code factice: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) …



1
Comment déterminer les composants principaux significatifs en utilisant l’amorçage ou l’approche de Monte Carlo?
Je suis intéressé par la détermination du nombre de régularités significatives issues d'une analyse en composantes principales (ACP) ou d'une fonction empirique orthogonale (EOF). Je suis particulièrement intéressé par l'application de cette méthode aux données climatiques. Le champ de données est une matrice MxN, M étant la dimension temporelle (par …
40 r  pca  bootstrap  monte-carlo 




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.