Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je suppose que je suis frustré chaque fois que j'entends quelqu'un dire que la non-normalité des résidus et / ou l'hétéroscédasticité enfreignent les suppositions de la méthode MCO. Pour estimer les paramètres dans un modèle MLS, aucune de ces hypothèses n'est nécessaire selon le théorème de Gauss-Markov. Je vois à …
Une bonne pratique courante en Machine Learning est de normaliser les caractéristiques ou de normaliser les données des variables prédites, centrer les données soustrayant la moyenne et les normaliser en les divisant par la variance (ou l’écart type). Pour nous maîtriser et pour autant que je sache, nous faisons cela …
Je lisais l'article de 2008 de Geoff Cumming sur Replication and Intervals: les valeurs ne prédisent que très vaguement l'avenir, mais les intervalles de confiance sont bien meilleurs pppppp p p[environ 200 citations dans Google Scholar] - et je suis dérouté par l'une de ses revendications centrales. C'est l'un des …
J'ai lu le livre de Tukey "Exploratory Data Analysis". Écrit en 1977, le livre met l’accent sur les méthodes papier / crayon. Existe-t-il un successeur plus «moderne» qui prenne en compte le fait que nous pouvons maintenant tracer instantanément de grands ensembles de données?
De nombreux auteurs d'articles que j'ai lus affirment que les SVM sont une technique supérieure pour faire face à leur problème de régression / classification, sachant qu'ils ne pourraient pas obtenir de résultats similaires via les NN. Souvent, la comparaison indique que SVM, au lieu de NN, Avoir une théorie …
Si je lance un randomForestmodèle, je peux alors faire des prédictions basées sur ce modèle. Existe-t-il un moyen d’obtenir un intervalle de prévision de chacune des prévisions de sorte que je sache à quel point le modèle est sûr de sa réponse. Si cela est possible, est-il simplement basé sur …
Pour le problème de lasso tels que \ | \ beta \ | _1 \ leq t . Je vois souvent le résultat de seuillage souple \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text …
La page Wikipedia sur ANOVA énumère trois hypothèses , à savoir: Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique. Normalité - les distributions des résidus sont normales. Égalité (ou "homogénéité") des variances, appelée homoscédasticité ... Le point d’intérêt ici est la deuxième hypothèse. Plusieurs …
Supposons que j'ai trois populations avec quatre caractéristiques mutuellement exclusives. Je prélève des échantillons aléatoires dans chaque population et crée un tableau croisé ou un tableau de fréquences pour les caractéristiques que je mesure. Ai-je raison de dire que: Si je voulais vérifier s'il existait une relation entre les populations …
Il semble que beaucoup de personnes (y compris moi-même) aiment effectuer une analyse exploratoire de données dans Excel. Certaines limitations, telles que le nombre de lignes autorisées dans une feuille de calcul, sont pénibles, mais dans la plupart des cas, il n’est pas impossible d’utiliser Excel pour jouer avec les …
J'ai une matrice (symétrique) Mqui représente la distance entre chaque paire de nœuds. Par exemple, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …
Une distribution gaussienne normalisée sur peut être définie en donnant explicitement sa densité: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} ou sa fonction caractéristique. Comme rappelé dans cette question, il s'agit également de la seule distribution pour laquelle la moyenne et la variance de l'échantillon sont indépendantes. Quelles sont les autres caractérisations alternatives surprenantes des …
J'ai un ensemble de données sous la forme de (fonctionnalités, sortie binaire 0 ou 1), mais 1 arrive assez rarement, donc juste en prédisant toujours 0, j'obtiens une précision comprise entre 70% et 90% (en fonction des données que je regarde) ). Les méthodes ML me donnent à peu près …
Je construis des modèles de régression. En guise d’étape de prétraitement, j’adapte mes valeurs de caractéristiques à la moyenne 0 et à l’écart type 1. Faut-il normaliser également les valeurs cibles?
De nombreuses études en sciences sociales utilisent les échelles de Likert. Quand est-il approprié d'utiliser les données Likert comme ordinales et quand est-il approprié de les utiliser comme données d'intervalle?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.