Il existe plusieurs techniques de ré - échantillonnage populaires, qui sont souvent utilisés dans la pratique, comme bootstrapping, test de permutation, jackknife, etc. Il existe de nombreux articles et livres traitent de ces techniques, par exemple Philippe I Bon (2010) Permutation, Parametric et Tests Bootstrap des hypothèses Ma question est …
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …
J'ai lu dans quelques sources, y compris celle-ci , que les forêts aléatoires ne sont pas sensibles aux valeurs aberrantes (par exemple, la régression logistique et les autres méthodes ML). Cependant, deux morceaux d'intuition me disent le contraire: Chaque fois qu'un arbre de décision est construit, tous les points doivent …
Je sais que c’est un sujet brûlant où personne ne peut vraiment donner une réponse simple. Néanmoins, je me demande si l'approche suivante ne pourrait pas être utile. La méthode bootstrap n'est utile que si votre échantillon suit plus ou moins (lire exactement) la même distribution que la population d'origine. …
J'ai récemment appris à utiliser des techniques d'amorçage pour calculer les erreurs standard et les intervalles de confiance pour les estimateurs. Ce que j'ai appris, c'est que si les données sont des IID, vous pouvez traiter les données de l'échantillon comme la population et faire un échantillonnage avec remplacement, ce …
Dans les notes du MIT OpenCourseWare pour 18.05 Introduction to Probability and Statistics, Spring 2014 (actuellement disponible ici ), il indique: La méthode du centile de bootstrap est attrayante en raison de sa simplicité. Cependant, cela dépend de la distribution bootstrap de basée sur un échantillon particulier étant une bonne …
On prétend souvent que le bootstrap peut fournir une estimation du biais dans un estimateur. Si t est l'estimation pour une statistique, et sont les répliques bootstrap (avec ), alors l'estimation bootstrap de biais est qui semble extrêmement simple et puissant, au point d'être troublant.t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i …
Des distributions très asymétriques telles que le log-normal n'entraînent pas des intervalles de confiance bootstrap précis. Voici un exemple montrant que les zones arrière gauche et droite sont loin de la valeur idéale de 0,025, quelle que soit la méthode d'amorçage que vous essayez dans R: require(boot) n <- 25 …
J'ai un manuscrit sur une méthode bootstrap pour tester les hypothèses d'une moyenne, et je voudrais l'envoyer pour publication, mais j'ai un dilemme moral. J'ai signé la protestation contre Elsevier pour ses pratiques commerciales contraires à l'éthique, et la lecture de toute la question m'a vraiment fait remettre en question …
Quand on amorce un paramètre pour obtenir l'erreur standard, nous obtenons une distribution du paramètre. Pourquoi n'utilisons-nous pas la moyenne de cette distribution comme résultat ou estimation pour le paramètre que nous essayons d'obtenir? La distribution ne devrait-elle pas se rapprocher de la vraie? Par conséquent, nous obtiendrions une bonne …
Ayant récemment étudié le bootstrap, j'ai posé une question conceptuelle qui me laisse toujours perplexe: Vous avez une population et vous voulez connaître un attribut de population, c'est-à-dire θ=g(P)θ=g(P)\theta=g(P) , où j'utilise PPP pour représenter la population. Ce θθ\theta pourrait être la moyenne de la population par exemple. Habituellement, vous …
Je voulais faire une démonstration de classe où je compare un intervalle t à un intervalle de bootstrap et calcule la probabilité de couverture des deux. Je voulais que les données proviennent d'une distribution asymétrique, j'ai donc choisi de générer les données sous la forme d' exp(rnorm(10, 0, 2)) + …
Existe-t-il une technique de bootstrap pour calculer les intervalles de prédiction pour les prédictions ponctuelles obtenues par exemple à partir d'une régression linéaire ou d'une autre méthode de régression (k-plus proche voisin, arbres de régression, etc.)? D'une certaine manière, je pense que la manière parfois proposée de simplement lancer la …
J'utilise le package "boot" pour calculer une valeur p approximative de démarrage à 2 côtés mais le résultat est trop éloigné de la valeur p de l'utilisation de t.test. Je ne peux pas comprendre ce que j'ai fait de mal dans mon code R. Quelqu'un peut-il me donner un indice …
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.