Je suis un peu confus au sujet de la sélection des fonctionnalités et de l'apprentissage automatique, et je me demandais si vous pouviez m'aider. J'ai un jeu de données de micropuces qui est classé en deux groupes et qui comporte des milliers de fonctionnalités. Mon objectif est d'obtenir un petit …
En d'autres termes, sur la base de ce qui suit, qu'est-ce que p? Afin d'en faire un problème mathématique plutôt que l'anthropologie ou les sciences sociales, et pour simplifier le problème, supposons que les partenaires sont sélectionnés avec une probabilité égale dans l'ensemble de la population, sauf que les frères …
J'ai des valeurs de p provenant de nombreux tests et j'aimerais savoir s'il y a réellement quelque chose d'important après correction pour plusieurs tests. La complication: mes tests ne sont pas indépendants. La méthode à laquelle je pense (une variante de la méthode des produits de Fisher, Zaykin et al., …
La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …
Dans les études d'association à l'échelle du génome (GWAS): Quels sont les principaux composants? Pourquoi sont-ils utilisés? Comment sont-ils calculés? Une étude d'association à l'échelle du génome peut-elle être réalisée sans utiliser l'ACP?
Dans les études d'expression génique utilisant des puces à ADN, les données d'intensité doivent être normalisées afin que les intensités puissent être comparées entre les individus, entre les gènes. Sur le plan conceptuel et algorithmique, comment fonctionne la «normalisation quantile» et comment expliqueriez-vous cela à un non-statisticien?
J'espère que quelqu'un sur ces forums pourra m'aider avec ce problème de base dans les études d'expression génique. J'ai fait un séquençage profond d'un tissu expérimental et d'un tissu témoin. J'ai ensuite obtenu des valeurs d'enrichissement par repli des gènes dans l'échantillon expérimental par rapport au contrôle. Le génome de …
Contexte biologique Au fil du temps, certaines espèces végétales ont tendance à dupliquer leurs génomes entiers, obtenant une copie supplémentaire de chaque gène. En raison de l'instabilité de cette configuration, bon nombre de ces gènes sont ensuite supprimés, et le génome se réorganise et se stabilise, prêt à être dupliqué …
Si j’émets l’hypothèse qu’une signature génique identifiera les sujets à moindre risque de récidive, c’est-à-dire diminuer de 0,5 (rapport de risque de 0,5) le taux d’événement dans 20% de la population et j’ai l’intention d’utiliser des échantillons issus d’une étude de cohorte rétrospective la taille de l'échantillon doit être ajustée …
Pourquoi utiliser l'âge et le carré d'âge comme covariables dans une étude d'association génétique? Je peux comprendre l'utilisation de l'âge s'il a été identifié comme une covariable significative, mais je ne suis pas sûr de l'utilisation de l'âge au carré.
J'essaie de résumer ce que j'ai compris jusqu'à présent dans l'analyse multivariée pénalisée avec des ensembles de données de grande dimension, et j'ai toujours du mal à obtenir une définition correcte du seuillage progressif par rapport à la pénalisation Lasso (ou ).L1L1L_1 Plus précisément, j'ai utilisé une régression PLS clairsemée …
J'ai une matrice , où est le nombre de gènes et est le nombre de patients. Quiconque a travaillé avec de telles données sait que est toujours supérieur à . En utilisant la sélection des fonctionnalités, j'ai réduit à un nombre plus raisonnable, mais est toujours supérieur à .p n …
Prenez 20 points aléatoires dans un espace de 10 000 dimensions avec chaque coordonnée iid de . Répartissez-les en 10 paires («couples») et ajoutez la moyenne de chaque paire («un enfant») à l'ensemble de données. Ensuite, faites PCA sur les 30 points résultants et tracez PC1 vs PC2.N(0,1)N(0,1)\mathcal N(0,1) Une …
J'ai deux ensembles de données provenant d'études d'association à l'échelle du génome. Les seules informations disponibles sont le rapport de cotes et la valeur de p pour le premier ensemble de données. Pour le deuxième ensemble de données, j'ai le rapport de cotes, la valeur de p et les fréquences …
J'ai deux ensembles de données provenant d'études d'association à l'échelle du génome. Les seules informations disponibles sont les rapports impairs et leurs intervalles de confiance (95%) pour chaque SNP génotypé. Je veux générer un graphique forestier comparant ces deux rapports de cotes, mais je ne trouve pas le moyen de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.