Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Un ancien collègue m'a un jour expliqué ce qui suit: Nous appliquons généralement des tests de normalité aux résultats de processus qui, sous le zéro, génèrent des variables aléatoires qui ne sont que asymptotiquement ou presque normales (la partie "asymptotiquement" dépendant d'une quantité que nous ne pouvons pas rendre grande); …
Dans certaines publications, j'ai lu qu'une régression avec plusieurs variables explicatives, si différentes unités, devait être normalisée. (La normalisation consiste à soustraire la moyenne et à la diviser par l'écart type.) Dans quels autres cas dois-je normaliser mes données? Existe-t-il des cas dans lesquels je devrais seulement centrer mes données …
En termes simples, comment expliqueriez-vous (peut-être avec des exemples simples) la différence entre les modèles à effets fixes, à effets aléatoires et à effets mixtes?
Je suis perdu dans la normalisation, quelqu'un pourrait-il me guider s'il vous plaît. J'ai un minimum et des valeurs maximales, par exemple -23,89 et 7,54990767, respectivement. Si j’obtiens une valeur de 5,6878, comment puis-je redimensionner cette valeur sur une échelle de 0 à 1?
D'après Wikipedia , il existe trois interprétations des degrés de liberté d'une statistique: En statistique, le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d’une statistique qui sont libres de varier . Les estimations de paramètres statistiques peuvent être basées sur différentes quantités d'informations …
Après avoir suivi un cours de statistique et ensuite essayé d'aider d'autres étudiants, j'ai remarqué qu'un sujet qui inspire beaucoup de bousculades au bureau est l'interprétation des résultats de tests d'hypothèses statistiques. Il semble que les étudiants apprennent facilement à effectuer les calculs requis par un test donné, mais s’arrêtent …
Quelles sont les similitudes et les différences entre ces 3 méthodes: Ensachage, Boosting, Empiler? Quel est le meilleur? Et pourquoi? Pouvez-vous me donner un exemple pour chacun?
J'ai lu que "la distance euclidienne n'est pas une bonne distance dans les grandes dimensions". Je suppose que cette déclaration a quelque chose à voir avec la malédiction de la dimensionnalité, mais quoi au juste? En outre, qu'est-ce que les «grandes dimensions»? J'appliquais la classification hiérarchique en utilisant la distance …
Les pages d’aide de R supposent que je sais ce que signifient ces chiffres, mais je ne les connais pas. J'essaie de comprendre intuitivement chaque chiffre ici. Je vais simplement poster le résultat et commenter ce que j'ai découvert. Il y aura peut-être des erreurs, car je vais simplement écrire …
J'ai parcouru quelques notes de cours de Cosma Shalizi (en particulier, la section 2.1.1 de la deuxième leçon ), et il m'a été rappelé que vous pouvez obtenir un très faible même avec un modèle complètement linéaire.R2R2R^2 Pour paraphraser l'exemple de Shalizi: supposons que vous ayez un modèle , où …
L'échange de Joris et Srikant ici m'a demander (encore une fois) si mes explications internes de la différence entre les intervalles de confiance et les intervalles crédibles étaient les bonnes. Comment expliqueriez-vous la différence?
Il semble que, grâce à diverses questions connexes, il existe un consensus sur le fait que la partie "95%" de ce que nous appelons un "intervalle de confiance à 95%" fait référence au fait que si nous reproduisions exactement nos procédures d'échantillonnage et de calcul CI , 95% des IC …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.