Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données



2
Interprétation de la courbe des résidus par rapport aux valeurs ajustées pour la vérification des hypothèses d'un modèle linéaire
Examinons la figure suivante tirée de Modèles linéaires avec R de Faraway (2005, p. 59). Le premier graphique semble indiquer que les valeurs résiduelles et ajustées ne sont pas corrélées, car elles devraient figurer dans un modèle linéaire homoscédastique avec des erreurs distribuées normalement. Par conséquent, les deuxième et troisième …

2
Sélection de modèle et validation croisée: la bonne manière
CrossValidated contient de nombreuses discussions sur la sélection de modèles et la validation croisée. Voici quelques-uns: Validation croisée interne et externe et sélection du modèle La réponse de @ DikranMarsupial à la sélection des fonctionnalités et à la validation croisée Cependant, les réponses à ces discussions sont assez génériques et …

2
Quelles sont les différences pratiques entre les procédures de taux de fausse découverte de Benjamini & Hochberg (1995) et de Benjamini & Yekutieli (2001)?
Mon programme de statistiques applique à la fois les procédures Benjamini & Hochberg (1995) et Benjamini & Yekutieli (2001). J'ai fait de mon mieux pour lire le dernier article, mais il est assez mathématiquement dense et je ne suis pas raisonnablement certain de comprendre la différence entre les procédures. D'après …




3
Pourquoi la matrice de corrélation doit-elle être positive semi-définie et que signifie-t-elle être ou ne pas être positive semi-définie?
J'ai étudié la signification de la propriété semi-définie positive des matrices de corrélation ou de covariance. Je cherche des informations sur Définition de semi-définitif positif; Ses propriétés importantes, ses implications pratiques; Conséquence d'avoir un déterminant négatif, impact sur l'analyse multivariée, les résultats de simulation, etc.


3
Différence entre les modèles linéaires généralisés et les modèles mixtes linéaires généralisés
Je me demande quelles sont les différences entre les GLM mixtes et non mélangées. Par exemple, dans SPSS, le menu déroulant permet aux utilisateurs d’inscrire: analyze-> generalized linear models-> generalized linear models Et analyze-> mixed models-> generalized linear Traitent-ils différemment les valeurs manquantes? Ma variable dépendante est binaire et j'ai …



5
Peut-on sur-adapter en apprenant des algorithmes d’apprentissage automatique en utilisant CV / Bootstrap?
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.