Statistiques et Big Data

3

Quelle est la probabilité que sur 25 nombres aléatoires compris entre 1 et 100, le plus élevé apparaisse plus d'une fois?

Dans de nombreux jeux en ligne, lorsque les joueurs accomplissent une tâche difficile, une récompense spéciale est parfois donnée que toute personne ayant accompli la tâche peut utiliser. il s'agit généralement d'une monture (méthode de transport) ou d'un autre élément de vanité (objets qui n'améliorent pas les performances du personnage …

23 probability random-generation

4

Manuel sur la * théorie * des réseaux de neurones / algorithmes ML?

Chaque manuel que j'ai vu jusqu'à présent décrit les algorithmes ML et comment les implémenter. Existe-t-il également un manuel qui construit des théorèmes et des preuves du comportement de ces algorithmes? Par exemple, en déclarant que dans les conditions , la descente de gradient conduira toujours à ?x , y, …

23 machine-learning mathematical-statistics references algorithms

5

L'analyse exploratoire des données est-elle importante lors de la modélisation purement prédictive?

Lors de la construction d'un modèle prédictif à l'aide de techniques d'apprentissage automatique, quel est l'intérêt de faire une analyse exploratoire des données (EDA)? Est-il correct de passer directement à la génération de fonctionnalités et à la construction de votre (vos) modèle (s)? Quelle est l'importance des statistiques descriptives utilisées …

23 machine-learning predictive-models descriptive-statistics eda

2

Quel modèle ou algorithme statistique pourrait être utilisé pour résoudre le problème de John Snow Cholera?

Je suis intéressé à apprendre comment développer une approximation géographique d'une sorte d'épicentre sur la base des données de l'épidémie de choléra de John Snow. Quelle modélisation statistique pourrait être utilisée pour résoudre un tel problème sans connaissance préalable de l'emplacement des puits. Comme problème général, vous auriez à disposition …

23 bayesian spatial epidemiology gis

10

Meilleur terme pour les données composées?

J'écris un exemple et j'ai composé quelques données. Je veux qu'il soit clair pour le lecteur que ce ne sont pas de vraies données, mais je ne veux pas non plus donner l'impression de malveillance, car elles ne servent qu'à titre d'exemple. Il n'y a pas de composante (pseudo) aléatoire …

23 terminology synthetic-data

1

L'échantillonnage pour la régression logistique devrait-il refléter le rapport réel de 1 et de 0?

Supposons que je veuille créer un modèle de régression logistique qui puisse estimer la probabilité d'occurrence de certaines espèces animales vivant sur des arbres en fonction des caractéristiques des arbres (hauteur fe). Comme toujours, mon temps et mon argent sont limités, je ne peux donc collecter qu'un échantillon limité. J'ai …

23 logistic sampling

4

Problème de Monty Hall avec un Monty faillible

Monty savait parfaitement si la Porte avait une chèvre derrière (ou était vide). Ce fait permet au joueur de doubler son taux de réussite au fil du temps en passant des «suppositions» à l'autre porte. Et si les connaissances de Monty n'étaient pas parfaites? Et si parfois le prix était …

23 conditional-probability

1

Explication de ce que Nate Silver a dit au sujet du loess

Dans une question que j'ai posée récemment , on m'a dit que c'était un grand "non-non" d'extrapoler avec du lœss. Mais, dans le dernier article de Nate Silver sur FiveThirtyEight.com, il a discuté de l'utilisation du loess pour faire des prédictions électorales. Il discutait des spécificités des prévisions agressives par …

23 time-series forecasting predictive-models loess politics

3

La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?

J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour visualiser les fonctionnalités apprises par …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

Propriétés de l'ACP pour les observations dépendantes

Nous utilisons généralement l'ACP comme technique de réduction de la dimensionnalité pour les données où les cas sont supposés être iid Question: Quelles sont les nuances typiques dans l'application de l'ACP pour des données dépendantes et non iid? Quelles propriétés agréables / utiles de PCA détiennent pour les données iid …

23 time-series pca non-independent iid

1

Comment interpréter les histogrammes donnés par TensorFlow dans TensorBoard?

Récemment, je courais et j'apprenais le flux tenseur et j'ai obtenu quelques histogrammes que je ne savais pas interpréter. Habituellement, je pense à la hauteur des barres comme à la fréquence (ou fréquence relative / comptes). Cependant, le fait qu'il n'y ait pas de barres comme dans un histogramme habituel …

23 machine-learning neural-networks conv-neural-network tensorflow

4

Pourquoi les algorithmes d'optimisation sont-ils définis en fonction d'autres problèmes d'optimisation?

Je fais des recherches sur les techniques d'optimisation pour l'apprentissage automatique, mais je suis surpris de constater qu'un grand nombre d'algorithmes d'optimisation sont définis en fonction d'autres problèmes d'optimisation. J'illustre quelques exemples dans ce qui suit. Par exemple https://arxiv.org/pdf/1511.05133v1.pdf Tout semble beau et bon, mais il y a cet dans …

23 machine-learning svm optimization

1

Keras, comment fonctionne la décroissance du taux d'apprentissage SGD?

Si vous regardez la documentation http://keras.io/optimizers/ il y a un paramètre dans le SGD pour la désintégration. Je sais que cela réduit le taux d'apprentissage au fil du temps. Cependant, je ne peux pas comprendre comment cela fonctionne exactement. Est-ce une valeur multipliée par le taux d'apprentissage telle qu'elle lr …

23 neural-networks python

2

Le modèle final (prêt pour la production) doit-il être formé sur des données complètes ou simplement sur un ensemble de formation?

Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit …

23 machine-learning validation regression-strategies

2

Est-il logique qu'un effet fixe soit imbriqué dans un effet aléatoire, ou comment coder des mesures répétées dans R (aov et lmer)?

J'ai regardé à travers cet aperçu des formules lm / lmer R par @conjugateprior et je suis devenu confus par l'entrée suivante: Supposons maintenant que A est aléatoire, mais B est fixe et B est imbriqué dans A. aov(Y ~ B + Error(A/B), data=d) Ci-dessous, une formule de modèle mixte …

23 r anova mixed-model repeated-measures lme4-nlme