Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Supposons que je dispose de certaines données historiques, telles que les cours antérieurs, les fluctuations des prix des billets d'avion, les données financières passées de la société ... Maintenant, quelqu'un (ou une formule) arrive et dit "prenons / utilisons le journal de la distribution" et voici où je vais POURQUOI …
Je travaille avec un petit ensemble de données (21 observations) et ai le graphe QQ normal suivant dans R: Voyant que l'intrigue ne soutient pas la normalité, que pourrais-je déduire de la distribution sous-jacente? Il me semble qu'une distribution plus biaisée à droite conviendrait mieux, n'est-ce pas? Aussi, quelles autres …
J'ai remarqué récemment que beaucoup de gens développent des équivalents tenseurs de nombreuses méthodes (factorisation des tenseurs, noyaux des tenseurs, tenseurs pour la modélisation de sujets, etc.) Je me demande pourquoi le monde est soudainement fasciné par les tenseurs? Existe-t-il des articles / résultats standard récents particulièrement surprenants qui ont …
Supposons que je veuille estimer un grand nombre de paramètres et que je veuille pénaliser certains d'entre eux car je pense qu'ils devraient avoir peu d'effet par rapport aux autres. Comment décider quel schéma de pénalisation utiliser? Quand la régression de crête est-elle plus appropriée? Quand devrais-je utiliser le lasso?
Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre chose?
Si vous avez une variable qui sépare parfaitement les zéros de la variable cible, R affichera le message d’alerte suivant: "séparation parfaite ou quasi parfaite": Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Nous obtenons toujours le modèle mais les estimations des coefficients sont gonflées. Comment gérez-vous cela …
J'ai récemment lu un article de R-Bloggers, qui est lié à ce billet de John Myles White sur un nouveau langage appelé Julia . Julia profite d'un compilateur juste à temps qui lui donne des temps d'exécution rapides et le met dans le même ordre de grandeur que C / …
Il y a beaucoup de discussions sur ce forum sur la bonne façon de spécifier divers modèles hiérarchiques en utilisant lmer. J'ai pensé que ce serait génial d'avoir toutes les informations au même endroit. Quelques questions pour commencer: Comment spécifier plusieurs niveaux, où un groupe est imbriqué dans l'autre: est-ce …
Je comprends les différences formelles qui les séparent. Ce que je veux savoir, c’est quand il est plus pertinent d’utiliser l’un par rapport à l’autre. Fournissent-ils toujours des informations complémentaires sur les performances d'un système de classification / détection donné? Quand est-il raisonnable de leur fournir les deux, par exemple, …
Après avoir lu un jeu de données: dataset <- read.csv("forR.csv") Comment puis-je obtenir que R me donne le nombre de cas qu'il contient? De même, la valeur renvoyée inclura-t-elle les cas exclus omis avec na.omit(dataset)?
Je sais que générative signifie "basé sur P(x,y)P(x,y)P(x,y) " et discriminatif signifie "basé sur P(y|x)P(y|x)P(y|x) ", mais je suis confus sur plusieurs points: Wikipedia (+ de nombreux autres hits sur le Web) classifie des éléments tels que les SVM et les arbres de décision comme discriminants. Mais ceux-ci n'ont même …
Quelles sont les principales différences entre effectuer une analyse en composantes principales (ACP) sur la matrice de corrélation et sur la matrice de covariance? Est-ce qu'ils donnent les mêmes résultats?
Sur la page Wikipedia sur les classificateurs naïfs de Bayes , il y a cette ligne: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Une distribution de probabilité sur 1 est OK. C'est l'aire sous la courbe en cloche qui est égale à 1.) Comment une valeur peut-elle être correcte? Je pensais que toutes les …
Je me demande comment choisir un modèle prédictif après la validation croisée des plis en K. Cela peut être mal formulé, alors laissez-moi vous expliquer plus en détail: chaque fois que je lance la validation croisée des plis en K, j'utilise K sous-ensembles des données d'apprentissage et finis avec K …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.