Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

3
Quelle est la probabilité que sur 25 nombres aléatoires compris entre 1 et 100, le plus élevé apparaisse plus d'une fois?
Dans de nombreux jeux en ligne, lorsque les joueurs accomplissent une tâche difficile, une récompense spéciale est parfois donnée que toute personne ayant accompli la tâche peut utiliser. il s'agit généralement d'une monture (méthode de transport) ou d'un autre élément de vanité (objets qui n'améliorent pas les performances du personnage …


5
L'analyse exploratoire des données est-elle importante lors de la modélisation purement prédictive?
Lors de la construction d'un modèle prédictif à l'aide de techniques d'apprentissage automatique, quel est l'intérêt de faire une analyse exploratoire des données (EDA)? Est-il correct de passer directement à la génération de fonctionnalités et à la construction de votre (vos) modèle (s)? Quelle est l'importance des statistiques descriptives utilisées …

2
Quel modèle ou algorithme statistique pourrait être utilisé pour résoudre le problème de John Snow Cholera?
Je suis intéressé à apprendre comment développer une approximation géographique d'une sorte d'épicentre sur la base des données de l'épidémie de choléra de John Snow. Quelle modélisation statistique pourrait être utilisée pour résoudre un tel problème sans connaissance préalable de l'emplacement des puits. Comme problème général, vous auriez à disposition …

10
Meilleur terme pour les données composées?
J'écris un exemple et j'ai composé quelques données. Je veux qu'il soit clair pour le lecteur que ce ne sont pas de vraies données, mais je ne veux pas non plus donner l'impression de malveillance, car elles ne servent qu'à titre d'exemple. Il n'y a pas de composante (pseudo) aléatoire …


4
Problème de Monty Hall avec un Monty faillible
Monty savait parfaitement si la Porte avait une chèvre derrière (ou était vide). Ce fait permet au joueur de doubler son taux de réussite au fil du temps en passant des «suppositions» à l'autre porte. Et si les connaissances de Monty n'étaient pas parfaites? Et si parfois le prix était …


3
La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?
J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour visualiser les fonctionnalités apprises par …

1
Propriétés de l'ACP pour les observations dépendantes
Nous utilisons généralement l'ACP comme technique de réduction de la dimensionnalité pour les données où les cas sont supposés être iid Question: Quelles sont les nuances typiques dans l'application de l'ACP pour des données dépendantes et non iid? Quelles propriétés agréables / utiles de PCA détiennent pour les données iid …


4
Pourquoi les algorithmes d'optimisation sont-ils définis en fonction d'autres problèmes d'optimisation?
Je fais des recherches sur les techniques d'optimisation pour l'apprentissage automatique, mais je suis surpris de constater qu'un grand nombre d'algorithmes d'optimisation sont définis en fonction d'autres problèmes d'optimisation. J'illustre quelques exemples dans ce qui suit. Par exemple https://arxiv.org/pdf/1511.05133v1.pdf Tout semble beau et bon, mais il y a cet dans …


2
Le modèle final (prêt pour la production) doit-il être formé sur des données complètes ou simplement sur un ensemble de formation?
Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.