Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je ne sais pas pourquoi nous devons simuler des variables catégorielles. Par exemple, si j'ai une variable catégorielle avec quatre valeurs possibles 0,1,2,3, je peux la remplacer par deux dimensions. Si la variable avait la valeur 0, elle aurait 0,0 dans les deux dimensions, si elle en avait 3, elle …
Je suis un peu confus quant aux hypothèses de régression linéaire. Jusqu'à présent, j'ai vérifié si: toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas) il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité). les distances Cook des …
J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance d'utilisation au cours …
Il y a eu de bonnes questions sur le traitement des données déséquilibrées dans le contexte de la classification , mais je me demande ce que les gens font pour échantillonner pour la régression. Supposons que le domaine problématique soit très sensible au signe, mais seulement quelque peu sensible à …
Jusqu'à présent, j'ai utilisé la statistique de Shapiro-Wilk afin de tester les hypothèses de normalité dans de petits échantillons. Pourriez-vous s'il vous plaît recommander une autre technique?
J'ai essayé de développer une compréhension basée sur l'intuition du théorème de Bayes en termes de probabilité antérieure , postérieure , de probabilité et marginale . Pour cela, j'utilise l'équation suivante: où représente une hypothèse ou une croyance et représente des données ou des preuves. J'ai compris le concept du …
Je travaille avec les réseaux neuronaux convolutionnels (CNN) depuis un certain temps maintenant, principalement sur les données d'image pour la segmentation sémantique / segmentation d'instance. J'ai souvent visualisé le softmax de la sortie réseau comme une "carte thermique" pour voir à quel point les activations par pixel sont élevées pour …
Je veux régresser une variable sur x , x 2 , … , x 5 . Dois-je le faire en utilisant des polynômes bruts ou orthogonaux? J'ai regardé la question sur le site qui traite de ces derniers, mais je ne comprends pas vraiment quelle est la différence entre les …
Ma compréhension est que dans l'apprentissage automatique, cela peut être un problème si votre ensemble de données a des fonctionnalités hautement corrélées, car elles codent efficacement les mêmes informations. Récemment, quelqu'un a souligné que lorsque vous effectuez un codage à chaud sur une variable catégorielle, vous vous retrouvez avec des …
Je comprends que l'analyse en composantes principales (ACP) peut être appliquée essentiellement pour les données transversales. PCA peut-il être utilisé pour les données de séries temporelles efficacement en spécifiant l'année comme variable de série temporelle et en exécutant PCA normalement? J'ai trouvé que l'APC dynamique fonctionne pour les données de …
Quelle est la motivation de l'introduction d'un niveau supplémentaire d'indirection du «faux positif» descriptif à l'entier «1»? Le «faux positif» est-il vraiment trop long?
Cela a été demandé sur d'autres sites SE dans le contexte des systèmes d'exploitation et de l'algèbre linéaire, mais la même question me dérange concernant les méthodes du noyau utilisées dans les statistiques et l'apprentissage automatique. Souvent, on dit que les noyaux, par exemple dans l'estimation de la densité du …
Certaines sources affirment que la fonction de vraisemblance n'est pas une probabilité conditionnelle, d'autres le disent. C'est très déroutant pour moi. Selon la plupart des sources que j'ai vues, la probabilité d'une distribution avec le paramètre , devrait être un produit de fonctions de masse de probabilité pour n échantillons …
Disons que j'ai les numéros suivants: 4,3,5,6,5,3,4,2,5,4,3,6,5 J'en échantillonne certains, disons 5 d'entre eux, et calcule la somme de 5 échantillons. Ensuite, je le répète encore et encore pour obtenir de nombreuses sommes, et je trace les valeurs des sommes dans un histogramme, qui sera gaussien en raison du théorème …
J'ai essayé une recherche google habituelle, etc., mais la plupart des réponses que je trouve sont quelque peu ambiguës ou spécifiques à une langue / bibliothèque, telles que Python ou C ++, stdlib.hetc. Par exemple, beaucoup disent que la graine est un point de départ du générateur de nombres aléatoires …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.