Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Ils semblent tous représenter des variables aléatoires par les nœuds et une (in) dépendance via les arêtes (éventuellement dirigées). Je suis particulièrement intéressé par le point de vue d'un bayésien.
Quelqu'un peut-il, s’il vous plaît, donner une explication succincte de la raison pour laquelle il n’est pas judicieux d’enseigner aux élèves qu’une valeur p est la probabilité (leurs résultats sont dus à une chance [aléatoire]). D'après ce que je comprends, une p-value est le prob (obtenir des données plus extrêmes …
J'essaie d'utiliser le tracé de la silhouette pour déterminer le nombre de clusters dans mon jeu de données. Étant donné le jeu de données Train , j'ai utilisé le code matlab suivant Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = …
X et Y ne sont pas corrélés (-.01); Cependant, lorsque je place X dans une régression multiple prédisant Y, aux côtés de trois autres variables (liées) (A, B, C), X et deux autres variables (A, B) sont des prédicteurs significatifs de Y. Notez que les deux autres ( Les variables …
Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne …
J'ai du mal à comprendre comment interpréter la sortie d'importance variable du paquet Random Forest. La diminution moyenne de la précision est généralement décrite comme "la diminution de la précision du modèle due à la permutation des valeurs dans chaque fonction". S'agit-il d'une déclaration concernant la fonctionnalité dans son ensemble …
Pourquoi la statistique de test d'un test de rapport de probabilité est-elle distribuée en khi-deux? 2 ( ln La l t m o d e l - ln Ln u l l m o d e l ) ~ Χ2réFun l t- dFn u l l2(ln Lalt model−ln Lnull model)∼χdfalt−dfnull22(\ln …
Puis-je appeler un modèle dans lequel le théorème de Bayes est utilisé comme un "modèle bayésien"? Je crains qu'une telle définition ne soit trop large. Alors, quel est exactement un modèle bayésien?
Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la régression logistique appliquée de …
Les arbres de décision semblent être une méthode d’apprentissage automatique très compréhensible. Une fois créé, il peut être facilement inspecté par un humain, ce qui constitue un avantage considérable pour certaines applications. Quels sont les inconvénients pratiques des arbres de décision?
Je suis curieux de savoir les procédures reproductibles qui peuvent être utilisées pour découvrir la forme fonctionnelle de la fonction y = f(A, B, C) + error_termoù mon entrée est seulement un ensemble d'observations ( y, A, Bet C). Veuillez noter que la forme fonctionnelle de fest inconnue. Considérez le …
Je vais commencer par dire qu'il s'agit d'un problème de devoirs tout droit sorti du livre. J'ai passé quelques heures à chercher comment trouver les valeurs attendues et j'ai déterminé que je ne comprenais rien. Soit XXX le CDF F(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1 . Recherchez E(X)E(X)E(X) pour les …
Quelqu'un peut-il me dire ce que l'on entend par l'expression «apprenant faible»? Est-ce supposé être une hypothèse faible? Je suis confus quant à la relation entre un apprenant faible et un classificateur faible. Les deux sont les mêmes ou y a-t-il une différence? Dans l'algorithme AdaBoost, T=10. Que veut-on dire …
Cela fait longtemps que je suis des compétitions Kaggle et je me rends compte que de nombreuses stratégies gagnantes impliquent l’utilisation d’au moins un des «trois grands»: l’ensachage, le boost et l’empilement. Pour les régressions, plutôt que de se concentrer sur la construction d'un meilleur modèle de régression possible, la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.