Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre chose?
Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle. Il me semble que, en regroupant la variable, nous perdons des informations. Est-ce simplement pour que nous puissions modéliser des effets non linéaires? Si …
Puisque RF peut gérer la non-linéarité mais ne peut pas fournir de coefficients, serait-il sage d'utiliser une forêt aléatoire pour rassembler les caractéristiques les plus importantes, puis de les brancher dans un modèle de régression linéaire multiple afin d'obtenir leurs coefficients?
Est-il possible d'ajuster un modèle de régression logistique? J'ai vu une vidéo disant que si ma zone sous la courbe ROC est supérieure à 95%, il est très probable qu'elle soit sur-ajustée, mais est-il possible de sur-adapter un modèle de régression logistique?
Je réfléchis à la discussion autour de cette question et en particulier au commentaire de Frank Harrell selon lequel l'estimation de la variance dans un modèle réduit (c'est-à-dire à partir duquel un certain nombre de variables explicatives ont été testées et rejetées) devrait utiliser les degrés de liberté généralisés de …
Comme nous le savons tous, il existe 2 méthodes pour évaluer le modèle de régression logistique et elles testent des choses très différentes Puissance prédictive: Obtenez une statistique qui mesure dans quelle mesure vous pouvez prédire la variable dépendante en fonction des variables indépendantes. Les Pseudo R ^ 2 bien …
Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données disponibles ou sur la solution d'expédition formée uniquement sur le kit …
Mis à part certaines circonstances uniques où nous devons absolument comprendre la relation moyenne conditionnelle, quelles sont les situations où un chercheur devrait choisir l'OLS plutôt que la régression quantile? Je ne veux pas que la réponse soit "s'il n'y a aucune utilité à comprendre les relations de queue", car …
J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir …
Les méthodes algorithmiques de sélection des variables par étapes tendent à sélectionner des modèles qui biaisent plus ou moins toutes les estimations dans les modèles de régression ( ββ\beta s et leurs SE, valeurs p , statistiques F , etc.), et sont à peu près aussi susceptibles d'exclure les vrais …
Frank Harrell a lancé un blog ( Pensée statistique) . Dans son premier article , il énumère certaines caractéristiques clés de sa philosophie statistique. Entre autres éléments, il comprend: Faites de la taille de l'échantillon une variable aléatoire lorsque cela est possible Que signifie «faire de la taille de l'échantillon …
Ceci est mon premier article sur StackExchange, mais je l'utilise comme ressource depuis un bon moment, je ferai de mon mieux pour utiliser le format approprié et apporter les modifications appropriées. C'est également une question en plusieurs parties. Je ne savais pas si je devais diviser la question en plusieurs …
Après avoir demandé des éclaircissements sur les coefficients du modèle linéaire ici, j'ai une question de suivi concernant les coefficients de niveaux de facteur non significatifs (valeur p élevée). Exemple: si mon modèle linéaire comprend un facteur à 10 niveaux et que seulement 3 de ces niveaux ont des valeurs …
Dans l'analyse discriminante, la variable dépendante est catégorielle, mais puis-je utiliser une variable catégorielle (par exemple, le statut résidentiel: rural, urbain) avec une autre variable continue comme variable indépendante dans l'analyse discriminante linéaire?
En utilisant ces données: head(USArrests) nrow(USArrests) Je peux faire un PCA ainsi: plot(USArrests) otherPCA <- princomp(USArrests) Je peux intégrer les nouveaux composants otherPCA$scores et la proportion de variance expliquée par les composantes avec summary(otherPCA) Mais que faire si je veux savoir quelles variables sont principalement expliquées par quels composants principaux? …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.