Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
J'ai effectué une validation croisée 10 fois sur différents algorithmes de classification binaire, avec le même ensemble de données, et j'ai reçu des résultats moyens à la fois micro et macro. Il convient de mentionner qu'il s'agissait d'un problème de classification multi-étiquettes. Dans mon cas, les vrais négatifs et les …
Considérons le modèle standard de régression multiple où , donc la normalité, l'homoscédasticité et la non corrélation des erreurs sont toutes valables.Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supposons que nous effectuons une régression de crête, en ajoutant la même petite quantité à tous les éléments de la diagonale de :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y …
J'ai deux fonctions de densité de probabilité de distributions normales: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } et f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Je recherche la fonction de densité de probabilité de la séparation entre x1x1x_1 …
J'essaie d'adapter les modèles linéaires généralisés à certains ensembles de données de comptage qui pourraient ou non être sur-dispersés. Les deux distributions canoniques qui s'appliquent ici sont le binôme de Poisson et négatif (Negbin), avec EV et varianceμμ\mu Vun rP= μVunerP=μVar_P = \mu Vun rNB= μ + μ2θVunerNB=μ+μ2θVar_{NB} = \mu …
Pourquoi dans "Méthode des moments", nous assimilons les moments de l'échantillon aux moments de la population pour trouver l'estimateur ponctuel? Où est la logique derrière tout ça?
La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des points dans un espace euclidien. C'est un problème bien sûr, car de nombreuses …
J'observe un comportement très étrange dans le résultat SVD de données aléatoires, que je peux reproduire à la fois dans Matlab et R. Il ressemble à un problème numérique dans la bibliothèque LAPACK; est-ce? Je tire n=1000n=1000n=1000 échantillons de la gaussienne k=2k=2k=2 dimensionnelle avec une moyenne nulle et une covariance …
J'ai 383 échantillons qui ont un biais important pour certaines valeurs communes, comment calculer l'IC à 95% pour la moyenne? L'IC que j'ai calculé semble très éloigné, ce que je suppose parce que mes données ne ressemblent pas à une courbe lorsque je fais un histogramme. Je pense donc que …
Lorsque je trace un histogramme de mes données, il a deux pics: Cela signifie-t-il une distribution multimodale potentielle? J'ai exécuté le dip.testdans R ( library(diptest)), et la sortie est: D = 0.0275, p-value = 0.7913 Je peux conclure que mes données ont une distribution multimodale? LES DONNÉES 10346 13698 13894 …
Selon un texte que j'utilise, la formule de la variance du ithithi^{th} résiduel est donnée par: σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Je trouve cela difficile à croire car le ithithi^{th} résiduel est la différence entre la ithithi^{th} valeur observée et la ithithi^{th} valeur ajustée; si l'on devait calculer la variance …
Lors du calcul de l'AIC, AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k signifie «nombre de paramètres». Mais qu'est-ce qui compte comme paramètre? Ainsi, par exemple dans le modèle y=ax+by=ax+by = ax + b Est-ce que a et b sont toujours comptés comme paramètres? Et si je ne me soucie …
Je suis mathématicien autodidacte en statistique et je lutte particulièrement avec la langue. Dans le livre que j'utilise, il y a le problème suivant: Une variable aléatoire est donnée sous la forme -distribuée avec . (Bien sûr, vous pouvez prendre n'importe quelle distribution en fonction d'un paramètre pour cette question.) …
J'essaie d'adapter un modèle de régression linéaire multiple à mes données avec quelques paramètres d'entrée, disons 3. F( x )F( x )= A x1+ B x2+ CX3+ dou= ( A B C )T( x1 X2 X3) + d(je)(ii)(je)F(X)=UNEX1+BX2+CX3+réou(ii)F(X)=(UNE B C)T(X1 X2 X3)+ré\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + …
Je lis Bishop sur l'algorithme EM pour GMM et la relation entre GMM et k-means. Dans ce livre, il est dit que k-means est une version difficile à attribuer de GMM. Je me demande si cela implique que si les données que j'essaie de regrouper ne sont pas gaussiennes, je …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.