Science des données statistics

1

Comment obtenir une corrélation entre deux variables catégorielles et une variable catégorielle et une variable continue?

Je construis un modèle de régression et j'ai besoin de calculer ce qui suit pour vérifier les corrélations Corrélation entre 2 variables qualitatives multiniveaux Corrélation entre une variable catégorielle à plusieurs niveaux et une variable continue VIF (facteur d'inflation de la variance) pour une variable catégorielle à plusieurs niveaux Je …

63 r statistics correlation

5

Réseaux de neurones: quelle fonction de coût utiliser?

J'utilise TensorFlow pour des expériences principalement avec des réseaux de neurones. Bien que j'aie fait pas mal d'expériences (XOR-Problem, MNIST, des trucs de régression, ...) maintenant, je ne parviens pas à choisir la fonction de coût "correcte" pour des problèmes spécifiques car, dans l'ensemble, je pourrais être considéré comme un …

49 machine-learning python neural-network statistics tensorflow

11

Data Science en C (ou C ++)

Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant ma carrière dans Rles autres …

40 machine-learning bigdata statistics programming c

3

Calcul et visualisation de la matrice de corrélation avec les pandas

J'ai un bloc de données de pandas avec plusieurs entrées et je veux calculer la corrélation entre les revenus de certains types de magasins. Il existe un certain nombre de magasins avec des données sur le revenu, une classification du domaine d'activité (théâtre, magasins de tissus, alimentation ...) et d'autres …

35 python statistics visualization pandas

4

Des livres sur la «science» en science des données? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 5 ans . Quels sont les livres sur la …

26 statistics reference-request

9

Toute console R en ligne?

Je recherche une console en ligne pour la langue R. Comme j'écris le code et le serveur devrait s'exécuter et me fournir la sortie. Similaire au site Web Datacamp.

24 r statistics

4

Quel modèle statistique dois-je utiliser pour analyser la probabilité qu'un seul événement influence les données longitudinales

J'essaie de trouver une formule, une méthode ou un modèle à utiliser pour analyser la probabilité qu'un événement spécifique ait influencé certaines données longitudinales. J'ai du mal à trouver quoi rechercher sur Google. Voici un exemple de scénario: Imaginez que vous possédez une entreprise qui compte en moyenne 100 clients …

19 machine-learning data-mining statistics

4

Comment spécifier des attributs importants?

Supposons un ensemble de données peu structurées (par exemple, des tables Web / des données ouvertes liées), composées de nombreuses sources de données. Il n'y a pas de schéma commun suivi par les données et chaque source peut utiliser des attributs de synonymes pour décrire les valeurs (par exemple "nationalité" …

15 machine-learning statistics feature-selection

5

Livres de mathématiques pour débutants pour l'apprentissage automatique

Je suis ingénieur en informatique sans expérience en statistique ou en mathématiques avancées. J'étudie le livre Python Machine Learning de Raschka et Mirjalili, mais quand j'ai essayé de comprendre les mathématiques du Machine Learning, je n'ai pas pu comprendre le grand livre qu'un ami m'a proposé The Elements of Statistical …

14 machine-learning statistics reference-request math

2

Données de grande dimension: quelles sont les techniques utiles à connaître?

En raison de diverses malédictions de dimensionnalité , la précision et la vitesse de nombreuses techniques prédictives courantes se dégradent sur des données de grande dimension. Quelles sont les techniques / astuces / heuristiques les plus utiles qui aident à gérer efficacement les données de grande dimension? Par exemple, Certaines …

14 machine-learning statistics dimensionality-reduction

3

Quand les valeurs p sont-elles trompeuses?

Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette catégorie?

14 bigdata statistics

1

Combien de fonctionnalités échantillonner à l'aide de forêts aléatoires

La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit: Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ppp fonctions p ⌋sont utilisées dans chaque division.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y …

13 statistics random-forest optimization evaluation sampling

2

Analyser les résultats des tests A / B qui ne sont pas normalement distribués, en utilisant un test t indépendant

J'ai un ensemble de résultats d'un test A / B (un groupe de contrôle, un groupe d'entités) qui ne correspondent pas à une distribution normale. En fait, la distribution ressemble plus à la distribution de Landau. Je crois que le test t indépendant nécessite que les échantillons soient au moins …

13 dataset statistics ab-test

6

Ensembles de données comprenant les meilleures pratiques

Je suis un étudiant en master CS en data mining. Mon superviseur m'a dit une fois qu'avant d'exécuter un classificateur ou de faire quoi que ce soit avec un ensemble de données, je dois bien comprendre les données et m'assurer que les données sont propres et correctes. Mes questions: Quelles …

13 statistics dataset

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

Questions marquées «statistics»