Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

1
Utilisation abusive de la validation croisée (rapport des performances pour la meilleure valeur d'hyperparamètre)
Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …

7
Pourquoi la précision de validation fluctue-t-elle?
J'ai un CNN à quatre couches pour prédire la réponse au cancer à l'aide de données IRM. J'utilise les activations ReLU pour introduire des non-linéarités. La précision et la perte du train augmentent et diminuent de façon monotone respectivement. Mais, ma précision de test commence à fluctuer énormément. J'ai essayé …

6
Si un intervalle crédible a un avant plat, un intervalle de confiance à 95% est-il égal à un intervalle crédible à 95%?
Je suis très nouveau dans les statistiques bayésiennes, et cela peut être une question stupide. Cependant: Considérons un intervalle crédible avec un a priori qui spécifie une distribution uniforme. Par exemple, de 0 à 1, où 0 à 1 représente la plage complète des valeurs possibles d'un effet. Dans ce …

2
Avons-nous besoin d'une descente de gradient pour trouver les coefficients d'un modèle de régression linéaire?
J'essayais d'apprendre l'apprentissage automatique en utilisant le matériel Coursera . Dans cette conférence, Andrew Ng utilise un algorithme de descente de gradient pour trouver les coefficients du modèle de régression linéaire qui minimiseront la fonction d'erreur (fonction de coût). Pour la régression linéaire, avons-nous besoin d'une descente de gradient? Il …


3
Comment Naive Bayes est-il un classificateur linéaire?
J'ai vu l'autre fil ici, mais je ne pense pas que la réponse ait satisfait la question réelle. Ce que j'ai continuellement lu, c'est que Naive Bayes est un classificateur linéaire (ex: ici ) (tel qu'il trace une frontière de décision linéaire) en utilisant la démonstration des cotes logarithmiques. Cependant, …


3
Erreur quadratique moyenne et somme résiduelle des carrés
En regardant les définitions Wikipedia de: Erreur quadratique moyenne (MSE) Somme résiduelle des carrés (RSS) Il me semble que MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 où est le nombre d'échantillons et est notre estimation de .NNNfifif_iyiyiy_i Cependant, aucun des articles de Wikipédia ne mentionne cette relation. Pourquoi? …
31 residuals  mse 

2
Importance relative d'un ensemble de prédicteurs dans une classification aléatoire des forêts dans R
Je voudrais déterminer l'importance relative des ensembles de variables par rapport à un randomForestmodèle de classification dans R. La importancefonction fournit la MeanDecreaseGinimétrique pour chaque prédicteur individuel - est-ce aussi simple que de les additionner à travers chaque prédicteur d'un ensemble? Par exemple: # Assumes df has variables a1, a2, …

4
Quand l'estimation bootstrap du biais est-elle valide?
On prétend souvent que le bootstrap peut fournir une estimation du biais dans un estimateur. Si t est l'estimation pour une statistique, et sont les répliques bootstrap (avec ), alors l'estimation bootstrap de biais est qui semble extrêmement simple et puissant, au point d'être troublant.t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i …
31 bootstrap  bias 

2
format de données libsvm [fermé]
J'utilise l'outil libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) pour prendre en charge la classification des vecteurs. Cependant, je suis confus quant au format des données d'entrée. Du README: Le format du fichier de données de formation et de test est: <label> <index1>:<value1> <index2>:<value2> ... . . . Chaque ligne contient une instance …





En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.