Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


7
Lorsque vous effectuez une régression multiple, quand devriez-vous centrer vos variables prédictives et quand devriez-vous les normaliser?
Dans certaines publications, j'ai lu qu'une régression avec plusieurs variables explicatives, si différentes unités, devait être normalisée. (La normalisation consiste à soustraire la moyenne et à la diviser par l'écart type.) Dans quels autres cas dois-je normaliser mes données? Existe-t-il des cas dans lesquels je devrais seulement centrer mes données …


6
Comment normaliser les données dans la plage 0-1?
Je suis perdu dans la normalisation, quelqu'un pourrait-il me guider s'il vous plaît. J'ai un minimum et des valeurs maximales, par exemple -23,89 et 7,54990767, respectivement. Si j’obtiens une valeur de 5,6878, comment puis-je redimensionner cette valeur sur une échelle de 0 à 1?

11
Comment comprendre les degrés de liberté?
D'après Wikipedia , il existe trois interprétations des degrés de liberté d'une statistique: En statistique, le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d’une statistique qui sont libres de varier . Les estimations de paramètres statistiques peuvent être basées sur différentes quantités d'informations …


16
Quelle est la signification des valeurs p et t dans les tests statistiques?
Après avoir suivi un cours de statistique et ensuite essayé d'aider d'autres étudiants, j'ai remarqué qu'un sujet qui inspire beaucoup de bousculades au bureau est l'interprétation des résultats de tests d'hypothèses statistiques. Il semble que les étudiants apprennent facilement à effectuer les calculs requis par un test donné, mais s’arrêtent …


8
Pourquoi la distance euclidienne n'est-elle pas une bonne métrique dans les grandes dimensions?
J'ai lu que "la distance euclidienne n'est pas une bonne distance dans les grandes dimensions". Je suppose que cette déclaration a quelque chose à voir avec la malédiction de la dimensionnalité, mais quoi au juste? En outre, qu'est-ce que les «grandes dimensions»? J'appliquais la classification hiérarchique en utilisant la distance …


2
Interprétation de la sortie de lm () de R
Les pages d’aide de R supposent que je sais ce que signifient ces chiffres, mais je ne les connais pas. J'essaie de comprendre intuitivement chaque chiffre ici. Je vais simplement poster le résultat et commenter ce que j'ai découvert. Il y aura peut-être des erreurs, car je vais simplement écrire …

6
Est utiles ou dangereux?
J'ai parcouru quelques notes de cours de Cosma Shalizi (en particulier, la section 2.1.1 de la deuxième leçon ), et il m'a été rappelé que vous pouvez obtenir un très faible même avec un modèle complètement linéaire.R2R2R^2 Pour paraphraser l'exemple de Shalizi: supposons que vous ayez un modèle , où …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.