Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je lisais cet article et je suis curieux de savoir comment répondre à cette question. La seule chose qui me vienne à l’esprit, c’est peut-être que dans certains pays, le séparateur décimal est une virgule et que le partage de données au format CSV peut poser problème , mais je …
Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De cette façon, il ne …
J'ai entendu dire que l'on pouvait trouver des corrélations partielles entre des variables aléatoires en inversant la matrice de covariance et en prenant les cellules appropriées à partir de cette matrice de précision résultante (ce fait est mentionné dans http://en.wikipedia.org/wiki/Partial_correlation , mais sans preuve). . pourquoi est-ce le cas?
À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …
J'ai lu sur https://en.wikipedia.org/wiki/Generative_adversarial_networks : Les réseaux accusatoires génératifs ont été introduits par Ian Goodfellow et al. En 2014. mais Jurgen Schmidhuber affirme avoir déjà effectué un travail similaire dans cette direction (par exemple, il y avait eu un débat lors du NIPS 2016 lors du didacticiel sur les réseaux …
Je vois fréquemment à la fois les orthographes "hétéroscédastique" et "hétéroscédastique", et de même pour "homoscédastique" et "homoscédastique". Il semble n'y avoir aucune différence de sens entre les variantes "c" et "k", il s'agit simplement d'une différence orthographique liée à l'étymologie grecque du mot. Quelles sont les origines des deux …
Il est bien connu que les chercheurs devraient passer du temps à observer et à explorer les données et recherches existantes avant de formuler une hypothèse, puis à collecter des données permettant de vérifier cette hypothèse (en faisant référence au test de signification par hypothèse nulle). De nombreux ouvrages statistiques …
Comme chacun le sait, SVM peut utiliser la méthode du noyau pour projeter des points de données dans des espaces plus élevés, de manière à ce que les points puissent être séparés par un espace linéaire. Mais nous pouvons aussi utiliser la régression logistique pour choisir cette limite dans l’espace …
Je suis tombé sur un article qui utilise la détection d'anomalie de lien pour prédire les sujets à la mode et je l'ai trouvé extrêmement intriguant: Cet article s'intitule "Découvrir les sujets émergents dans les flux sociaux via la détection d'anomalie de lien" . J'adorerais le reproduire sur un jeu …
De la documentation pour anova(): Lorsqu'une séquence d'objets est donnée, 'anova' teste les modèles les uns par rapport aux autres dans l'ordre spécifié ... Que signifie tester les modèles les uns contre les autres? Et pourquoi l'ordre compte-t-il? Voici un exemple tiré du didacticiel GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) …
J'utilise généralement BIC, car je pense qu'il valorise la parcimonie plus fortement que l'AIC. Cependant, j’ai décidé d’utiliser maintenant une approche plus globale et j’aimerais aussi utiliser AIC. Je sais que Raftery (1995) a présenté de bonnes directives pour les différences BIC: 0-2 est faible, 2-4 est la preuve positive …
Quand je regarde les nouvelles, j'ai remarqué que les sondages Gallup sur des sujets tels que les élections présidentielles avaient [je suppose des échantillons aléatoires] de plus de 1 000 échantillons. D'après ce que je me souviens des statistiques des collèges, une taille d'échantillon de 30 était un échantillon "considérablement …
Je viens de rencontrer le quatuor d'Anscombe (quatre jeux de données contenant des statistiques descriptives presque impossibles à distinguer, mais qui semblent très différents une fois tracés) et je suis curieux de savoir s'il existe d'autres jeux de données plus ou moins connus créés pour démontrer l'importance de certains aspects. …
Je souhaite effectuer une régression logistique avec la réponse binomiale suivante et avec et comme variables prédites. X 2X1X1X_1X2X2X_2 Je peux présenter les mêmes données que les réponses de Bernoulli dans le format suivant. Les résultats de la régression logistique pour ces 2 ensembles de données sont essentiellement les mêmes. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.