Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je suis complètement aveugle et je viens de la programmation. Ce que j'essaie de faire, c'est d'apprendre à apprendre par la machine. Pour ce faire, je dois d'abord apprendre la régression linéaire. Toutes les explications que je trouve sur Internet sur ce sujet tracent les données en premier. Je cherche …
C'est une question en général, non spécifique à une méthode ou à un ensemble de données. Comment traiter un problème de déséquilibre de classe dans l'apprentissage automatique supervisé, où le nombre de 0 est d'environ 90% et le nombre de 1 d'environ 10% dans votre jeu de données. Comment former …
Dans. 34 de son PRNN, Brian Ripley, a déclaré que "Akaike (1974) a désigné l'AIC comme" un critère d'information "bien qu'il semble communément admis que le" A "signifie Akaike". Akaike (1974, p. 719) explique en introduisant la statistique AIC que "IC stands for information criterion and A is added so …
Mis à part les considérations relatives à la puissance de calcul, y a-t-il des raisons de penser que l' augmentation du nombre de plis lors de la validation croisée conduit à une meilleure sélection / validation du modèle (en d'autres termes, plus le nombre de plis est élevé, mieux c'est). …
J'ai lu assez de discussions sur QQplots ici pour comprendre qu'un QQplot peut être plus informatif que d'autres tests de normalité. Cependant, je suis inexpérimenté avec l'interprétation de QQplots. J'ai googlé beaucoup; J'ai trouvé beaucoup de graphiques de QQtrots non normaux, mais pas de règles claires sur la façon de …
Aujourd'hui, je suis tombé sur un nouveau sujet appelé l'espérance mathématique. Dans le livre que je suis en train de suivre, l’attente est la moyenne arithmétique des variables aléatoires provenant de toute distribution de probabilité. Mais, il définit les attentes comme la somme du produit de certaines données et de …
Mon problème : j'ai récemment rencontré un statisticien qui m'a informé que les splines ne sont utiles que pour explorer des données et sont sujettes à un surajustement, ce qui n'est donc pas utile pour la prédiction. Il préférait explorer avec des polynômes simples ... Comme je suis un grand …
Si j'ai un ensemble de données qui produit un graphique tel que celui-ci, comment pourrais-je déterminer par un algorithme les valeurs x des pics affichés (dans ce cas, trois d'entre elles):
Je monte une famille de binômes dans R, et j'ai toute une troupe de variables explicatives, et j'ai besoin de trouver le meilleur (R au carré comme mesure, ça va). À part écrire un script pour parcourir différentes combinaisons aléatoires de variables explicatives et ensuite enregistrer qui donne les meilleurs …
J'essaie de prendre de la vitesse dans Bayesian Statistics. J'ai un peu de fond de statistiques (STAT 101) mais pas trop - je pense que je peux comprendre avant, après, et vraisemblance: D. Je ne veux pas lire un manuel bayésien pour l'instant. Je préférerais lire à partir d'une source …
Je prévois de commencer à écrire des packages R. J'ai pensé qu'il serait bon d'étudier le code source des paquets existants pour apprendre les conventions de la construction de paquets. Mes critères pour les bons forfaits à étudier: Idées statistiques / techniques simples : il s’agit d’apprendre les mécanismes de …
En tant que statisticiens, nous utilisons beaucoup de mots de manière légèrement différente de celle utilisée par tout le monde. Cela cause beaucoup de problèmes lorsque nous enseignons ou expliquons ce que nous faisons. Je vais commencer une liste (et maintenant je vais ajouter quelques définitions, par commentaires): Le pouvoir …
J'ai des données sur les ventes pour une série de points de vente et je souhaite les classer en fonction de la forme de leurs courbes au fil du temps. Les données ressemblent à peu près à ceci (mais ne sont évidemment pas aléatoires et ont des données manquantes): n.quarters …
Lorsque l'hypothèse d'homogénéité de la variance est vérifiée, il semble que les résultats d'un test t ajusté de Welch et d'un test t standard soient approximativement les mêmes. Pourquoi ne pas simplement simplement utiliser le Welch ajusté t?
Ma compréhension actuelle de la notion "intervalle de confiance avec le niveau de confiance 1−α1−α1 - \alpha " est que, si nous essayions de calculer plusieurs fois cet intervalle (chaque fois avec un nouvel échantillon), il contiendrait le paramètre correct 1−α1−α1 - \alpha de l'heure. Bien que je me rende …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.