Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Dans l'apprentissage automatique, les gens parlent de fonction objective, de fonction de coût, de fonction de perte. Sont-ils juste des noms différents de la même chose? Quand les utiliser? S'ils ne font pas toujours référence à la même chose, quelles sont les différences?
Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je devrais avoir …
Je dois déterminer la divergence KL entre deux Gaussiennes. Je compare mes résultats à ceux - ci , mais je ne peux pas reproduire leurs résultats. Mon résultat est évidemment faux, car le KL n'est pas 0 pour KL (p, p). Je me demande où je fais une erreur et …
Comme l'élection est un événement ponctuel, ce n'est pas une expérience qui peut être répétée. Alors, que veut dire techniquement l'expression "Hillary a 75% de chances de gagner" ? Je cherche une définition statistiquement correcte, pas une définition intuitive ou conceptuelle. Je suis un amateur de statistiques amateurs qui tente …
Je lis The Book of Why de Judea Pearl, et cela me passe à la peau 1 . Plus précisément, il me semble qu’il dénigre inconditionnellement les statistiques "classiques" en invoquant un argument de paille selon lequel les statistiques ne sont jamais, jamais en mesure d’enquêter sur les relations de …
Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit: "Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en …
Comment sauriez-vous si vos données (de haute dimension) présentent suffisamment de clustering pour que les résultats de kmeans ou d'un autre algorithme de clustering soient réellement significatifs? Pour l'algorithme k-means en particulier, quelle réduction de la variance au sein d'une grappe devrait-il y avoir pour que les résultats de la …
Je suis intéressé par le calcul de l'aire sous la courbe (AUC), ou la statistique C, à la main pour un modèle de régression logistique binaire. Par exemple, dans le jeu de données de validation, j'ai la valeur vraie pour la variable dépendante, rétention (1 = retenue; 0 = non …
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle. Il me semble que, en regroupant la variable, nous perdons des informations. Est-ce simplement pour que nous puissions modéliser des effets non linéaires? Si …
D'après ce que je comprends, ne peut pas être négatif car c'est le carré de R. Cependant, j'ai exécuté une régression linéaire simple dans SPSS avec une seule variable indépendante et une variable dépendante. Ma sortie SPSS me donne une valeur négative pour . Si je devais calculer cela manuellement …
J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement quelques PC va jeter …
J'ai une variable nominale (différents sujets de conversation, codée comme sujet0 = 0, etc.) et un certain nombre de variables d'échelle (DV) telles que la longueur d'une conversation. Comment puis-je obtenir des corrélations entre les variables nominales et d'échelle?
J'utilise R pour faire du clustering K-means. J'utilise 14 variables pour exécuter K-means Quelle est une jolie façon de tracer les résultats de K-means? Y a-t-il des implémentations existantes? Avoir 14 variables complique-t-il la représentation graphique des résultats? J'ai trouvé quelque chose appelé GGcluster qui a l'air cool mais qui …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.