Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


4
Pourquoi utiliser la régularisation dans la régression polynomiale au lieu de baisser le degré?
Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De cette façon, il ne …

3
Pourquoi l'inversion d'une matrice de covariance donne-t-elle des corrélations partielles entre variables aléatoires?
J'ai entendu dire que l'on pouvait trouver des corrélations partielles entre des variables aléatoires en inversant la matrice de covariance et en prenant les cellules appropriées à partir de cette matrice de précision résultante (ce fait est mentionné dans http://en.wikipedia.org/wiki/Partial_correlation , mais sans preuve). . pourquoi est-ce le cas?

2
Les variables hautement corrélées en forêt aléatoire ne vont-elles pas fausser la précision et la sélection des caractéristiques?
À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …


5
Pourquoi existe-t-il deux orthographes «hétéroscédastique» ou «hétéroscédastique»?
Je vois fréquemment à la fois les orthographes "hétéroscédastique" et "hétéroscédastique", et de même pour "homoscédastique" et "homoscédastique". Il semble n'y avoir aucune différence de sens entre les variantes "c" et "k", il s'agit simplement d'une différence orthographique liée à l'étymologie grecque du mot. Quelles sont les origines des deux …

3
Est-il possible de modifier une hypothèse pour correspondre aux données observées (expédition de pêche) et éviter une augmentation des erreurs de type I?
Il est bien connu que les chercheurs devraient passer du temps à observer et à explorer les données et recherches existantes avant de formuler une hypothèse, puis à collecter des données permettant de vérifier cette hypothèse (en faisant référence au test de signification par hypothèse nulle). De nombreux ouvrages statistiques …

3
Régression logistique du noyau vs SVM
Comme chacun le sait, SVM peut utiliser la méthode du noyau pour projeter des points de données dans des espaces plus élevés, de manière à ce que les points puissent être séparés par un espace linéaire. Mais nous pouvons aussi utiliser la régression logistique pour choisir cette limite dans l’espace …
32 svm 


1
Comparaison de deux modèles à l'aide de la fonction anova () dans R
De la documentation pour anova(): Lorsqu'une séquence d'objets est donnée, 'anova' teste les modèles les uns par rapport aux autres dans l'ordre spécifié ... Que signifie tester les modèles les uns contre les autres? Et pourquoi l'ordre compte-t-il? Voici un exemple tiré du didacticiel GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) …
32 r  anova 

5
Directives AIC dans la sélection du modèle
J'utilise généralement BIC, car je pense qu'il valorise la parcimonie plus fortement que l'AIC. Cependant, j’ai décidé d’utiliser maintenant une approche plus globale et j’aimerais aussi utiliser AIC. Je sais que Raftery (1995) a présenté de bonnes directives pour les différences BIC: 0-2 est faible, 2-4 est la preuve positive …




3
Est-il possible de trouver l'écart type combiné?
Supposons que j'ai 2 jeux: Ensemble A : nombre d'éléments , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Ensemble B : nombre d'éléments , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Je peux trouver la moyenne combinée ( ) facilement, mais comment suis-je censé trouver l'écart type combiné?μμ\mu

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.