Statistiques et Big Data

6

Quel livre est recommandé pour commencer à apprendre les statistiques en utilisant R en même temps?

Livres pour apprendre les statistiques en utilisant R Quel est exactement le livre que je cherche. Ce que je recherche, c’est un livre qui vous apprendra des statistiques tout en utilisant R pour vous donner une expérience pratique et vous aider ainsi à apprendre R ensemble. J'ai vu sur amazon …

50 r references

8

Sur la base de cet article , je souhaite digérer des éléments d’apprentissage statistique. Heureusement, il est disponible gratuitement et j'ai commencé à le lire. Je n'ai pas assez de connaissances pour le comprendre. Pouvez-vous recommander un livre qui constitue une meilleure introduction aux sujets abordés? Si tout va bien …

50 machine-learning references

6

Est une régression de crête inutile dans les dimensions élevées (

Considérons un bon vieux problème de régression avec prédicteurs et taille d’échantillon . La sagesse habituelle est que l’estimateur OLS va sur-adapter et sera généralement surperformé par l’estimateur de régression de crête:Il est standard d’utiliser la validation croisée pour trouver un paramètre de régularisation optimal . Ici, j'utilise un CV …

50 cross-validation regularization overfitting ridge-regression shrinkage

5

Quelle est la différence entre N et N-1 dans le calcul de la variance de population?

Je n'ai pas compris pourquoi Net N-1en calculant la variance de la population. Quand utilisons-nous Net quand utilisons-nous N-1? Cliquez ici pour une version plus grande Il dit que lorsque la population est très importante, il n'y a pas de différence entre N et N-1, mais il ne dit pas …

50 variance population

13

Logiciel pour dessiner des réseaux bayésiens (modèles graphiques)

Je recherche un logiciel [gratuit] capable de produire de beaux modèles graphiques, par exemple: Toute suggestion serait appréciée.

50 graphical-model software

3

Comment définissons-nous la «recherche reproductible»?

Cela a été soulevé dans quelques questions maintenant, et je me demandais quelque chose. Le champ dans son ensemble est-il passé à la "reproductibilité" en mettant l'accent sur la disponibilité des données d'origine et du code en question? On m'a toujours appris que le cœur de la reproductibilité n'était pas …

50 reproducible-research philosophical

5

Corriger l'orthographe (majuscule, italique, césure) de «valeur p»?

Je réalise que c'est pédant et banal, mais en tant que chercheur dans un domaine autre que la statistique, avec une éducation formelle limitée en statistique, je me demande toujours si j'écris correctement "p-value". Plus précisément: Le "p" est-il censé être capitalisé? Le "p" est-il supposé être en italique? (Ou …

50 hypothesis-testing p-value terminology

1

Encodage à chaud vs factice dans Scikit-learn

Il existe deux manières différentes d’encoder des variables catégorielles. Disons qu'une variable catégorique a n valeurs. Un codage à chaud le convertit en n variables, alors qu'un codage factice le convertit en n-1 variables. Si nous avons k variables catégorielles, chacune d’elles ayant n valeurs. Un codage à chaud aboutit …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

2

Existe-t-il une différence entre "contrôler pour" et "ignorer" d'autres variables dans la régression multiple?

Le coefficient d'une variable explicative dans une régression multiple nous indique la relation de cette variable explicative avec la variable dépendante. Tout cela, tout en "contrôlant" les autres variables explicatives. Comment je l'ai vu jusqu'à présent: Lors du calcul de chaque coefficient, les autres variables ne sont pas prises en …

50 regression multiple-regression

3

Quelle est l'intuition derrière SVD?

J'ai lu sur la décomposition en valeurs singulières (SVD). Dans presque tous les manuels, il est mentionné que la matrice est divisée en trois matrices avec une spécification donnée. Mais quelle est l'intuition derrière la division de la matrice sous une telle forme? La PCA et d’autres algorithmes de réduction …

50 matrix linear-algebra svd intuition

3

Regroupement avec K-Means et EM: comment sont-ils liés?

J'ai étudié des algorithmes permettant de regrouper des données (apprentissage non supervisé): EM et k-means. Je continue à lire ce qui suit: k-means est une variante de EM, avec l'hypothèse que les grappes sont sphériques. Quelqu'un peut-il expliquer la phrase ci-dessus? Je ne comprends pas ce que signifie sphérique, ni …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Obtention des valeurs prédites (Y = 1 ou 0) à partir d’un ajustement de modèle de régression logistique

Supposons que j'ai un objet de classe glm(correspondant à un modèle de régression logistique) et j'aimerais transformer les probabilités prédites données en predict.glmutilisant l'argument type="response"en réponses binaires, c'est-à-dire ou Y = 0 . Quel est le moyen le plus rapide et le plus canonique de faire cela en R?Y=1Y=1Y=1Y=0Y=0Y=0 Bien …

50 r generalized-linear-model logistic

4

Comment la régression, le test t et l'ANOVA sont-ils toutes les versions du modèle linéaire général?

Comment sont-ils toutes les versions de la même méthode statistique de base?

50 regression self-study anova generalized-linear-model t-test

4

Pourquoi s'embêter avec le double problème lors de l'installation de SVM?

Étant donné les points de données et les étiquettes , le problème principal de la marge absolue SVM esty 1 , … , y n ∈ { - 1 , 1 }x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w …

50 svm

16

Livres recommandés sur la conception d'expériences?

Quelles sont les recommandations du panel pour les livres sur la conception d'expériences? Idéalement, les livres devraient être encore imprimés ou disponibles en version électronique, bien que cela ne soit pas toujours réalisable. Si vous vous sentez ému d'ajouter quelques mots sur ce qui est si bon dans le livre, …

50 references experiment-design