Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


5
Hypothèses des modèles linéaires et que faire si les résidus ne sont pas normalement distribués
Je suis un peu confus quant aux hypothèses de régression linéaire. Jusqu'à présent, j'ai vérifié si: toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas) il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité). les distances Cook des …

2
Comment regrouper des séries chronologiques?
J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance d'utilisation au cours …



5
Intuition du théorème de Bayes
J'ai essayé de développer une compréhension basée sur l'intuition du théorème de Bayes en termes de probabilité antérieure , postérieure , de probabilité et marginale . Pour cela, j'utilise l'équation suivante: où représente une hypothèse ou une croyance et représente des données ou des preuves. J'ai compris le concept du …

4
Pourquoi la sortie softmax n'est-elle pas une bonne mesure d'incertitude pour les modèles Deep Learning?
Je travaille avec les réseaux neuronaux convolutionnels (CNN) depuis un certain temps maintenant, principalement sur les données d'image pour la segmentation sémantique / segmentation d'instance. J'ai souvent visualisé le softmax de la sortie réseau comme une "carte thermique" pour voir à quel point les activations par pixel sont élevées pour …

5
Régression polynomiale brute ou orthogonale?
Je veux régresser une variable sur x , x 2 , … , x 5 . Dois-je le faire en utilisant des polynômes bruts ou orthogonaux? J'ai regardé la question sur le site qui traite de ces derniers, mais je ne comprends pas vraiment quelle est la différence entre les …

1
Suppression d'une des colonnes lors de l'utilisation d'un codage à chaud
Ma compréhension est que dans l'apprentissage automatique, cela peut être un problème si votre ensemble de données a des fonctionnalités hautement corrélées, car elles codent efficacement les mêmes informations. Récemment, quelqu'un a souligné que lorsque vous effectuez un codage à chaud sur une variable catégorielle, vous vous retrouvez avec des …

2
L'APC peut-elle être appliquée pour les données de séries chronologiques?
Je comprends que l'analyse en composantes principales (ACP) peut être appliquée essentiellement pour les données transversales. PCA peut-il être utilisé pour les données de séries temporelles efficacement en spécifiant l'année comme variable de série temporelle et en exécutant PCA normalement? J'ai trouvé que l'APC dynamique fonctionne pour les données de …
22 time-series  pca 


2
Pourquoi le nom «noyau» dans les statistiques et ML?
Cela a été demandé sur d'autres sites SE dans le contexte des systèmes d'exploitation et de l'algèbre linéaire, mais la même question me dérange concernant les méthodes du noyau utilisées dans les statistiques et l'apprentissage automatique. Souvent, on dit que les noyaux, par exemple dans l'estimation de la densité du …

3
Y a-t-il une différence entre fréquentiste et bayésien sur la définition de la vraisemblance?
Certaines sources affirment que la fonction de vraisemblance n'est pas une probabilité conditionnelle, d'autres le disent. C'est très déroutant pour moi. Selon la plupart des sources que j'ai vues, la probabilité d'une distribution avec le paramètre , devrait être un produit de fonctions de masse de probabilité pour n échantillons …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.