Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

6
Comment puis-je prouver analytiquement que la division aléatoire d'un montant entraîne une distribution exponentielle (de revenu et de richesse, par exemple)?
Dans cet article actuel de SCIENCE, on propose ce qui suit: Supposons que vous divisez au hasard 500 millions de revenus sur 10 000 personnes. Il n'y a qu'un moyen de donner à chacun une part égale, 50 000 actions. Donc, si vous distribuez vos gains au hasard, l’égalité est …


2
Comment interpréter glmnet?
J'essaie d'adapter un modèle de régression linéaire multivarié avec environ 60 variables de prédicteur et 30 observations. J'utilise donc le package glmnet pour la régression régularisée, car p> n. J'ai parcouru la documentation et d'autres questions, mais je ne peux toujours pas interpréter les résultats. Voici un exemple de code …

3
Preuve expérimentale supportant des visualisations de style Tufte?
Q: Existe-t-il des preuves expérimentales soutenant des visualisations à la manière de Tufte, minimalistes et basées sur des données, par rapport aux visualisations avec graphiques désordonnés de, par exemple, Nigel Holmes ? J'ai demandé comment ajouter des graphiques compliqués aux courbes R ici et les répondants ont jeté une grosse …

4
Comment échantillonner à partir d'une distribution normale avec moyenne et variance connues en utilisant un langage de programmation conventionnel?
Je n'ai jamais suivi de cours de statistiques et j'espère donc poser mes questions au bon endroit ici. Supposons que je ne dispose que de deux données décrivant une distribution normale: la moyenne et la variance . Je souhaite utiliser un ordinateur pour échantillonner de manière aléatoire cette distribution, de …



6
Comment faire correspondre presque deux vecteurs de chaînes (en R)?
Je ne suis pas sûr de la façon dont cela devrait être appelé, alors corrigez-moi si vous connaissez un meilleur terme. J'ai deux listes. L'un des 55 éléments (par exemple: un vecteur de chaînes), l'autre de 92. Les noms des éléments sont similaires mais non identiques. Je souhaite trouver les …
36 r  text-mining 

4
Qu'est-ce qu'une variable instrumentale?
Les variables instrumentales sont de plus en plus courantes en économie appliquée et en statistique. Pour les non-initiés, pouvons-nous avoir des réponses non techniques aux questions suivantes: Qu'est-ce qu'une variable instrumentale? Quand voudrait-on employer une variable instrumentale? Comment trouver ou choisir une variable instrumentale?

3
Apprentissage automatique: devrais-je utiliser une perte d'entropie croisée ou d'entropie croisée binaire pour les prédictions binaires?
Tout d'abord, j'ai réalisé que si je devais effectuer des prédictions binaires, je devais créer au moins deux classes en effectuant un encodage à chaud. Est-ce correct? Cependant, l'entropie croisée binaire est-elle réservée aux prédictions avec une seule classe? Si je devais utiliser une perte catégorique d'entropie croisée que l'on …




1
Quand la validation croisée imbriquée est-elle vraiment nécessaire et peut-elle faire la différence?
Lorsque vous utilisez la validation croisée pour sélectionner des modèles (par exemple, un réglage hyperparamètre) et pour évaluer les performances du meilleur modèle, vous devez utiliser une validation croisée imbriquée . La boucle externe sert à évaluer les performances du modèle et la boucle interne à sélectionner le meilleur modèle. …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.