Statistiques et Big Data

3

Pourquoi devons-nous simuler des variables catégorielles

Je ne sais pas pourquoi nous devons simuler des variables catégorielles. Par exemple, si j'ai une variable catégorielle avec quatre valeurs possibles 0,1,2,3, je peux la remplacer par deux dimensions. Si la variable avait la valeur 0, elle aurait 0,0 dans les deux dimensions, si elle en avait 3, elle …

22 categorical-data categorical-encoding

5

Hypothèses des modèles linéaires et que faire si les résidus ne sont pas normalement distribués

Je suis un peu confus quant aux hypothèses de régression linéaire. Jusqu'à présent, j'ai vérifié si: toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas) il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité). les distances Cook des …

22 linear-model residuals assumptions normality-assumption

2

Comment regrouper des séries chronologiques?

J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance d'utilisation au cours …

22 time-series clustering spss

5

Échantillonnage des données déséquilibrées en régression

Il y a eu de bonnes questions sur le traitement des données déséquilibrées dans le contexte de la classification , mais je me demande ce que les gens font pour échantillonner pour la régression. Supposons que le domaine problématique soit très sensible au signe, mais seulement quelque peu sensible à …

22 regression sampling unbalanced-classes

6

Tests de normalité appropriés pour les petits échantillons

Jusqu'à présent, j'ai utilisé la statistique de Shapiro-Wilk afin de tester les hypothèses de normalité dans de petits échantillons. Pourriez-vous s'il vous plaît recommander une autre technique?

22 hypothesis-testing goodness-of-fit normality-assumption small-sample

5

Intuition du théorème de Bayes

J'ai essayé de développer une compréhension basée sur l'intuition du théorème de Bayes en termes de probabilité antérieure , postérieure , de probabilité et marginale . Pour cela, j'utilise l'équation suivante: où représente une hypothèse ou une croyance et représente des données ou des preuves. J'ai compris le concept du …

22 bayesian likelihood intuition

4

Pourquoi la sortie softmax n'est-elle pas une bonne mesure d'incertitude pour les modèles Deep Learning?

Je travaille avec les réseaux neuronaux convolutionnels (CNN) depuis un certain temps maintenant, principalement sur les données d'image pour la segmentation sémantique / segmentation d'instance. J'ai souvent visualisé le softmax de la sortie réseau comme une "carte thermique" pour voir à quel point les activations par pixel sont élevées pour …

22 probability deep-learning conv-neural-network uncertainty softmax

5

Régression polynomiale brute ou orthogonale?

Je veux régresser une variable sur x , x 2 , … , x 5 . Dois-je le faire en utilisant des polynômes bruts ou orthogonaux? J'ai regardé la question sur le site qui traite de ces derniers, mais je ne comprends pas vraiment quelle est la différence entre les …

22 r regression polynomial

1

Suppression d'une des colonnes lors de l'utilisation d'un codage à chaud

Ma compréhension est que dans l'apprentissage automatique, cela peut être un problème si votre ensemble de données a des fonctionnalités hautement corrélées, car elles codent efficacement les mêmes informations. Récemment, quelqu'un a souligné que lorsque vous effectuez un codage à chaud sur une variable catégorielle, vous vous retrouvez avec des …

22 regression machine-learning categorical-data discrete-data categorical-encoding

2

L'APC peut-elle être appliquée pour les données de séries chronologiques?

Je comprends que l'analyse en composantes principales (ACP) peut être appliquée essentiellement pour les données transversales. PCA peut-il être utilisé pour les données de séries temporelles efficacement en spécifiant l'année comme variable de série temporelle et en exécutant PCA normalement? J'ai trouvé que l'APC dynamique fonctionne pour les données de …

22 time-series pca

1

Pourquoi les noms d'erreur de type 1, 2?

Quelle est la motivation de l'introduction d'un niveau supplémentaire d'indirection du «faux positif» descriptif à l'entier «1»? Le «faux positif» est-il vraiment trop long?

21 terminology frequentist type-i-and-ii-errors

2

Pourquoi le nom «noyau» dans les statistiques et ML?

Cela a été demandé sur d'autres sites SE dans le contexte des systèmes d'exploitation et de l'algèbre linéaire, mais la même question me dérange concernant les méthodes du noyau utilisées dans les statistiques et l'apprentissage automatique. Souvent, on dit que les noyaux, par exemple dans l'estimation de la densité du …

21 terminology

3

Y a-t-il une différence entre fréquentiste et bayésien sur la définition de la vraisemblance?

Certaines sources affirment que la fonction de vraisemblance n'est pas une probabilité conditionnelle, d'autres le disent. C'est très déroutant pour moi. Selon la plupart des sources que j'ai vues, la probabilité d'une distribution avec le paramètre , devrait être un produit de fonctions de masse de probabilité pour n échantillons …

21 probability bayesian conditional-probability likelihood frequentist

4

Pourquoi le théorème de limite centrale tombe en panne dans ma simulation?

Disons que j'ai les numéros suivants: 4,3,5,6,5,3,4,2,5,4,3,6,5 J'en échantillonne certains, disons 5 d'entre eux, et calcule la somme de 5 échantillons. Ensuite, je le répète encore et encore pour obtenir de nombreuses sommes, et je trace les valeurs des sommes dans un histogramme, qui sera gaussien en raison du théorème …

21 central-limit-theorem

3

Qu'est-ce qu'une graine dans un générateur de nombres aléatoires?

J'ai essayé une recherche google habituelle, etc., mais la plupart des réponses que je trouve sont quelque peu ambiguës ou spécifiques à une langue / bibliothèque, telles que Python ou C ++, stdlib.hetc. Par exemple, beaucoup disent que la graine est un point de départ du générateur de nombres aléatoires …

21 random-generation