J'ai un ensemble de données avec principalement des variables financières (120 fonctionnalités, 4k exemples) qui sont pour la plupart hautement corrélées et très bruyantes (indicateurs techniques, par exemple), donc je voudrais sélectionner environ 20-30 max pour une utilisation ultérieure avec la formation de modèle (classification binaire - augmentation Diminution). Je …
Donc, je suis un débutant dans le domaine ML et j'essaie de faire un certain classement. Mon objectif est de prédire l'issue d'un événement sportif. J'ai rassemblé quelques données historiques et j'essaie maintenant de former un classificateur. J'ai obtenu environ 1200 échantillons, 0,2 d'entre eux que j'ai séparés à des …
J'ai construit des réseaux de neurones (MLP (entièrement connecté), Elman (récurrent)) pour différentes tâches, comme jouer au Pong, classer les chiffres manuscrits et tout ça ... De plus, j'ai essayé de construire certains premiers réseaux de neurones convolutifs, par exemple pour classer des notes manuscrites à plusieurs chiffres, mais je …
Je travaille sur la mesure d'importance de la fonctionnalité Gini pour la forêt aléatoire. Par conséquent, je dois calculer la diminution de Gini de l'impureté du nœud. Voici la façon dont je le fais, ce qui conduit à un conflit avec la définition, suggérant que je dois me tromper quelque …
Je me demandais pourquoi les méthodes de sélection des modèles LASSO et LARS sont si populaires même si elles ne sont fondamentalement que des variations de la sélection pas à pas (et souffrent donc de la dépendance du chemin)? De même, pourquoi les méthodes GETS (General to Specific) pour la …
Que pensez-vous de l'application de techniques d'apprentissage automatique, comme les forêts aléatoires ou la régression pénalisée (avec pénalité L1 ou L2, ou une combinaison de celles-ci) dans de petits échantillons d'études cliniques lorsque l'objectif est d'isoler des prédicteurs intéressants dans un contexte de classification? Ce n'est pas une question sur …
Je suis un ingénieur logiciel travaillant sur l'apprentissage automatique. D'après ma compréhension, la régression linéaire (comme OLS) et la classification linéaire (comme la régression logistique et SVM) font une prédiction basée sur un produit interne entre les coefficients formés et les variables caractéristiques :w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} …
J'ai donc joué avec les SVM et je me demande si c'est une bonne chose à faire: J'ai un ensemble de fonctionnalités continues (0 à 1) et un ensemble de fonctionnalités catégorielles que j'ai converties en variables factices. Dans ce cas particulier, j'encode la date de la mesure dans une …
Je sais que pour chaque paire de classes d'entités, la valeur de la statistique du chi carré est calculée et comparée à un seuil. mmmkkk Toute clarification sera très appréciée. Merci d'avance
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …
Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante. La question est: dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis …
La comparaison d'entités utilise-t-elle F-regressionla même chose que la corrélation individuelle d'entités avec l'étiquette et l'observation de la valeur ?R2R2R^2 J'ai souvent vu mes collègues utiliser une F regressionsélection de fonctionnalités dans leur pipeline d'apprentissage automatique à partir de sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Certains me disent s'il vous plaît - pourquoi cela …
Je pensais que je pourrais jouer avec une sélection de variables bayésiennes, à la suite d'un bel article de blog et des articles liés. J'ai écrit un programme dans rjags (où je suis plutôt une recrue) et récupéré des données de prix pour Exxon Mobil, ainsi que certaines choses qui …
Peut-être que c'est juste que je suis fatigué, mais j'ai du mal à essayer de comprendre l'algorithme de régression par étapes. À partir de "Éléments de l'apprentissage statistique" page 60: La régression pas à pas (FS) est encore plus contrainte que la régression pas à pas. Il commence comme une …
Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.