La statistique est une approche scientifique de l'inférence et de la prédiction inductives basée sur des modèles probabilistes des données. Par extension, il couvre la conception d'expériences et d'enquêtes pour recueillir des données à cet effet.
Je construis un modèle de régression et j'ai besoin de calculer ce qui suit pour vérifier les corrélations Corrélation entre 2 variables qualitatives multiniveaux Corrélation entre une variable catégorielle à plusieurs niveaux et une variable continue VIF (facteur d'inflation de la variance) pour une variable catégorielle à plusieurs niveaux Je …
J'utilise TensorFlow pour des expériences principalement avec des réseaux de neurones. Bien que j'aie fait pas mal d'expériences (XOR-Problem, MNIST, des trucs de régression, ...) maintenant, je ne parviens pas à choisir la fonction de coût "correcte" pour des problèmes spécifiques car, dans l'ensemble, je pourrais être considéré comme un …
Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant ma carrière dans Rles autres …
J'ai un bloc de données de pandas avec plusieurs entrées et je veux calculer la corrélation entre les revenus de certains types de magasins. Il existe un certain nombre de magasins avec des données sur le revenu, une classification du domaine d'activité (théâtre, magasins de tissus, alimentation ...) et d'autres …
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 5 ans . Quels sont les livres sur la …
Je recherche une console en ligne pour la langue R. Comme j'écris le code et le serveur devrait s'exécuter et me fournir la sortie. Similaire au site Web Datacamp.
J'essaie de trouver une formule, une méthode ou un modèle à utiliser pour analyser la probabilité qu'un événement spécifique ait influencé certaines données longitudinales. J'ai du mal à trouver quoi rechercher sur Google. Voici un exemple de scénario: Imaginez que vous possédez une entreprise qui compte en moyenne 100 clients …
Supposons un ensemble de données peu structurées (par exemple, des tables Web / des données ouvertes liées), composées de nombreuses sources de données. Il n'y a pas de schéma commun suivi par les données et chaque source peut utiliser des attributs de synonymes pour décrire les valeurs (par exemple "nationalité" …
Je suis ingénieur en informatique sans expérience en statistique ou en mathématiques avancées. J'étudie le livre Python Machine Learning de Raschka et Mirjalili, mais quand j'ai essayé de comprendre les mathématiques du Machine Learning, je n'ai pas pu comprendre le grand livre qu'un ami m'a proposé The Elements of Statistical …
En raison de diverses malédictions de dimensionnalité , la précision et la vitesse de nombreuses techniques prédictives courantes se dégradent sur des données de grande dimension. Quelles sont les techniques / astuces / heuristiques les plus utiles qui aident à gérer efficacement les données de grande dimension? Par exemple, Certaines …
Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette catégorie?
La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit: Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ppp fonctions p ⌋sont utilisées dans chaque division.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y …
J'ai un ensemble de résultats d'un test A / B (un groupe de contrôle, un groupe d'entités) qui ne correspondent pas à une distribution normale. En fait, la distribution ressemble plus à la distribution de Landau. Je crois que le test t indépendant nécessite que les échantillons soient au moins …
Je suis un étudiant en master CS en data mining. Mon superviseur m'a dit une fois qu'avant d'exécuter un classificateur ou de faire quoi que ce soit avec un ensemble de données, je dois bien comprendre les données et m'assurer que les données sont propres et correctes. Mes questions: Quelles …
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.