Statistiques et Big Data

1

Lorsque vous transformez des variables, devez-vous utiliser la même transformation? Par exemple, puis-je choisir et choisir des variables transformées différemment, comme dans: Soit, l'âge, la durée de l'emploi, la durée de résidence et le revenu.X1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Ou devez-vous être cohérent avec vos …

41 r regression logistic data-transformation

20

Existe-t-il de bons films sur les mathématiques ou les probabilités?

Pouvez-vous suggérer de bons films qui impliquent des maths, des probabilités, etc.? Un exemple est 21 . Je serais également intéressé par les films qui impliquent des algorithmes (par exemple, le déchiffrement de texte). En général, des films "geek" avec des théories scientifiques célèbres, mais pas de science-fiction ou de …

41 probability references

7

À quelle fréquence devez-vous lancer un dé à 6 faces pour obtenir chaque numéro au moins une fois?

Je viens de jouer avec mes enfants à un jeu qui se résume essentiellement à: celui qui lance chaque chiffre au moins une fois sur un dé à 6 faces gagne. J'ai finalement gagné et les autres ont fini 1-2 tours plus tard. Maintenant, je me demande: quelle est l'attente …

41 probability dice coupon-collector-problem

3

Qui a la queue plus lourde, lognormal ou gamma?

(Ceci est basé sur une question qui vient de me parvenir par courrier électronique; j'ai ajouté du contexte à partir d'une conversation brève précédente avec la même personne.) L'année dernière, on m'a dit que la distribution gamma était plus lourde que la normale, et on m'a dit depuis que ce …

41 distributions gamma-distribution lognormal heavy-tailed

8

Comment puis-je tester si des échantillons donnés proviennent d'une distribution de Poisson?

Je connais des tests de normalité, mais comment puis-je tester "Poisson-ness"? J'ai un échantillon d'environ 1 000 entiers non négatifs, dont je soupçonne qu'ils sont tirés d'une distribution de Poisson, et j'aimerais le tester.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

13

Pourquoi l’âge médian est-il meilleur que l’âge moyen?

Si vous regardez Wolfram Alpha Ou cette page Wikipedia Liste des pays par âge médian Clairement, la médiane semble être la statistique de choix en ce qui concerne les âges. Je ne suis pas capable de m'expliquer pourquoi la moyenne arithmétique serait une statistique pire. Pourquoi est-ce? Initialement posté ici …

41 mean median

4

Pourquoi la corrélation zéro n'implique pas nécessairement l'indépendance

Si deux variables ont une corrélation nulle, pourquoi ne sont-elles pas nécessairement indépendantes? Les variables corrélées à zéro sont-elles indépendantes dans des circonstances particulières? Si possible, je cherche une explication intuitive, pas très technique.

41 correlation independence

1

Comment interpréter les mesures d'erreur?

J'utilise la classification dans Weka pour un certain ensemble de données et j'ai remarqué que si j'essaie de prédire une valeur nominale, la sortie affiche spécifiquement les valeurs prédites correctement et incorrectement. Cependant, je l’utilise maintenant pour un attribut numérique et le résultat est le suivant: Correlation coefficient 0.3305 Mean …

41 machine-learning error weka mse rms

6

Optimisation pratique de l'hyperparamètre: recherche aléatoire ou en grille

Je suis en train de parcourir la recherche aléatoire d'optimisation d'hyper-paramètre [1] de Bengio et Bergsta, où les auteurs affirment que la recherche aléatoire est plus efficace que la recherche sur grille pour obtenir des performances à peu près égales. Ma question est la suivante: les gens ici sont-ils d'accord …

41 machine-learning hyperparameter optimization

3

Quelle est la différence entre une distribution normale et une distribution gaussienne

Existe-t-il une différence profonde entre une distribution normale et une distribution gaussienne? J'ai vu de nombreux articles les utiliser sans distinction et je les désigne généralement comme la même chose. Cependant, mon IP m'a récemment dit qu'une normale est le cas spécifique du gaussien avec moyenne = 0 et std …

41 normal-distribution terminology

5

Comment dériver la solution de régression de crête?

J'ai des problèmes avec la dérivation de la solution pour la régression de crête. Je connais la solution de régression sans le terme de régularisation: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienneλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX …

41 regression least-squares regularization ridge-regression

9

Comment interpréter les valeurs de mesure F?

J'aimerais savoir comment interpréter une différence de valeurs de f-mesures. Je sais que la f-mesure est une moyenne équilibrée entre précision et rappel, mais je m'interroge sur la signification pratique d'une différence entre les F-mesures. Par exemple, si un classificateur C1 a une précision de 0,4 et un autre classificateur …

41 classification precision-recall

3

Comment puis - je calculer

Supposons que ϕ(⋅)ϕ(⋅)\phi(\cdot) et Φ(⋅)Φ(⋅)\Phi(\cdot) sont fonction de la densité et la fonction de répartition de la loi normale. Comment peut-on calculer l'intégrale: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

41 mathematical-statistics normal-distribution integral

5

En quoi les scores de propension sont-ils différents de l’addition de covariables dans une régression et quand sont-ils préférés à cette dernière?

J'admets que je suis relativement nouveau dans les scores de propension et l'analyse causale. Une chose qui ne me semble pas évident en tant que nouveau venu est de savoir en quoi l’équilibrage à l’aide des scores de propension est mathématiquement différent de ce qui se produit lorsque nous ajoutons …

41 regression multivariate-analysis causality propensity-scores

1

Quelle est la différence entre softmax_cross_entropy_with_logits et softmax_cross_entropy_with_logits_v2?

Plus précisément, je suppose que je m'interroge sur cette affirmation: Les futures versions majeures de TensorFlow permettront par défaut aux gradients de s’intégrer dans l’entrée des étiquettes sur backprop. Qui est montré quand j'utilise tf.nn.softmax_cross_entropy_with_logits. Dans le même message, il m’incite à regarder tf.nn.softmax_cross_entropy_with_logits_v2. J'ai parcouru la documentation, mais elle …

41 machine-learning supervised-learning tensorflow backpropagation