Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données




2
Quelle est la différence entre l'ACP et l'ACP asymptotique?
Dans deux articles en 1986 et 1988 , Connor et Korajczyk ont ​​proposé une approche pour modéliser les rendements des actifs. Étant donné que ces séries chronologiques ont généralement plus d'actifs que les observations de période, ils ont proposé d'effectuer une ACP sur les covariances transversales des rendements des actifs. …
23 pca  econometrics 


2
Forensics statistiques: Benford et au-delà
Quelles méthodes générales existe-t-il pour détecter la fraude, les anomalies, les falsifications, etc. dans les travaux scientifiques produits par un tiers? (J'étais motivé à le demander par la récente affaire Marc Hauser .) Habituellement, pour les fraudes électorales et comptables, une variante de la loi de Benford est citée. Je …


9
Séries chronologiques pour les données de dénombrement, avec dénombrements <20
J'ai récemment commencé à travailler pour une clinique antituberculeuse. Nous nous réunissons périodiquement pour discuter du nombre de cas de tuberculose que nous traitons actuellement, du nombre de tests administrés, etc. J'aimerais commencer à modéliser ces chiffres afin de ne pas simplement deviner si quelque chose est inhabituel ou non. …


1
Explication de min_child_weight dans l'algorithme xgboost
La définition du paramètre min_child_weight dans xgboost est donnée comme: somme minimale du poids d'instance (toile de jute) nécessaire chez un enfant. Si l'étape de partition d'arborescence aboutit à un nœud feuille avec la somme du poids d'instance inférieure à min_child_weight, le processus de construction abandonnera le partitionnement. En mode …

1
Quels sont exactement les mécanismes d'attention?
Les mécanismes d'attention ont été utilisés dans divers articles sur le Deep Learning au cours des dernières années. Ilya Sutskever, responsable de la recherche chez Open AI, les a félicités avec enthousiasme: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello de l'Université Purdue a déclaré que les RNN et les LSTM devraient être abandonnés au …


2
Pourquoi existe-t-il deux formules / notations de pertes logistiques différentes?
J'ai vu deux types de formulations de pertes logistiques. On peut facilement montrer qu'ils sont identiques, la seule différence est la définition de l'étiquette yyy . Formulation / notation 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) où p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , où la fonction logistique mappe un nombre réelβTxβTx\beta^T …

3
Un élevé est-il jamais inutile?
Cette question a été migrée depuis Stack Overflow car il est possible d'y répondre lors de la validation croisée. Migré il y a 4 ans . Dans les statistiques, nous faisons des régressions linéaires, leurs tout débuts. En général, nous savons que plus le élevé , mieux c'est, mais existe-t-il …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.