Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Soit titit_i tiré iid d'une distribution de Student t avec degrés de liberté, pour taille moyenne (disons inférieure à 100). Définir est-il distribué presque comme un chi carré avec degrés de liberté? Existe-t-il quelque chose comme le théorème de la limite centrale pour la somme des variables aléatoires au carré?nnnnnnT=∑1≤i≤kt2iT=∑1≤i≤kti2T …
Je mène des expériences pour un article et je suis à la recherche d'un livre / site Web intéressant pour bien comprendre comment fonctionnent l'ANOVA et l'ANCOVA. J'ai une bonne formation en mathématiques, donc je n'ai pas nécessairement besoin d'une explication vulgarisée. Je voudrais également savoir comment déterminer quand utiliser …
Cette question concerne l'estimation des scores de coupure sur un questionnaire de dépistage multidimensionnel pour prédire un critère d'évaluation binaire, en présence d'échelles corrélées. On m'a interrogé sur l'intérêt de contrôler les sous-scores associés lors de l'élaboration des scores de coupure sur chaque dimension d'une échelle de mesure (traits de …
Disons que nous avons deux facteurs (A et B), chacun avec deux niveaux (A1, A2 et B1, B2) et une variable de réponse (y). Lorsque vous effectuez une ANOVA bidirectionnelle du type: y~A+B+A*B Nous testons trois hypothèses nulles: Il n'y a pas de différence dans les moyennes du facteur A …
Dans mes tentatives pour lutter contre le chaos des feuilles de calcul, je suis souvent évangélique en plaidant pour des outils plus robustes tels que de vrais logiciels de statistiques (R, Stata, etc.). Récemment, j'ai été contesté sur ce point de vue par quelqu'un qui a déclaré catégoriquement qu'il n'apprendrait …
L' astuce du noyau est utilisée dans plusieurs modèles d'apprentissage automatique (par exemple SVM ). Il a été introduit pour la première fois dans le document "Fondements théoriques de la méthode de la fonction potentielle dans l'apprentissage par reconnaissance de formes" en 1964. La définition de wikipedia dit qu'il est …
La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M …
Je lisais aujourd'hui le blog de Christian Robert et j'aimais beaucoup le nouvel algorithme de Metropolis-Hastings dont il parlait. Cela semblait simple et facile à mettre en œuvre. Chaque fois que je code MCMC, j'ai tendance à m'en tenir à des algorithmes MH très basiques, tels que des mouvements indépendants …
Une question qui me dérange depuis un certain temps, que je ne sais pas comment aborder: Chaque jour, mon météorologue donne un pourcentage de chance de pluie (supposons que son calculé à 9000 chiffres et il n'a jamais répété un nombre). Chaque jour suivant, il pleut ou ne pleut pas. …
Je ne suis pas un expert de la forêt aléatoire, mais je comprends clairement que le problème clé avec la forêt aléatoire est la génération d'arbres (aléatoire). Pouvez-vous m'expliquer comment les arbres sont générés? (c.-à-d. quelle est la distribution utilisée pour la génération d'arbres?) Merci d'avance !
La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …
Dans le problème classique du collecteur de coupons , il est bien connu que le temps nécessaire pour terminer un ensemble de coupons choisis au hasard satisfait , , et .TTTnnnE[T]∼nlnnE[T]∼nlnnE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T>nlnn+cn)<e−cPr(T>nlnn+cn)<e−c\Pr(T > n \ln n + cn) < e^{-c} Cette limite supérieure est …
Quelle est la méthode préférée pour effectuer des post-hocs pour les tests intra-sujets? J'ai vu des travaux publiés où le HSD de Tukey est utilisé, mais un examen de Keppel et Maxwell & Delaney suggère que la violation probable de la sphéricité dans ces conceptions rend le terme d'erreur incorrect …
J'ai entendu dire que lorsque de nombreuses spécifications de modèle de régression (par exemple, dans OLS) sont considérées comme des possibilités pour un ensemble de données, cela pose de multiples problèmes de comparaison et les valeurs de p et les intervalles de confiance ne sont plus fiables. Un exemple extrême …
Existe-t-il une différence conceptuelle ou procédurale entre l'ajustement d'un modèle aux données et l'ajustement des données au modèle? Un exemple de la première formulation peut être vu dans https://courses.washington.edu/matlab1/ModelFitting.html , et de la seconde dans https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.