La formulation d'un modèle mathématique pour un problème est l'un des aspects les plus subjectifs de la statistique, mais aussi l'un des plus importants. Quelles sont les meilleures références traitant de ce sujet crucial mais souvent négligé? Et quel célèbre statisticien a dit quelque chose dans le sens de: "Que …
La régression et l'apprentissage automatique sont utilisés en sciences naturelles pour tester des hypothèses, estimer des paramètres et faire des prédictions en ajustant des modèles aux données. Cependant, quand j'ai un modèle a priori , je ne veux faire aucun ajustement --- par exemple, un modèle d'un système physique déterministe …
Dans le "Guide du praticien des modèles linéaires généralisés" au paragraphe 1.83, il est indiqué que: "Dans le cas particulier d'un GLM multiplicatif de Poisson, il peut être démontré que la modélisation des comptes de sinistres avec un terme de décalage égal au log de l'exposition a produit des résultats …
J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …
J'ai lu l'article suivant sur l'indépendance statistique . En résumé, l'article soutient que "Il est temps que la science retire la fiction de l'indépendance statistique" et poursuit en expliquant différentes raisons. Après avoir lu l'article, j'ai tendance à être d'accord. Je voulais savoir ce qui suit: Que pensent les autres …
J'ai deux séries chronologiques (paramètres d'un modèle pour hommes et femmes) et vise à identifier un modèle ARIMA approprié afin de faire des prévisions. Ma série chronologique ressemble à: L'intrigue et l'ACF montrent non stationnaire (les pointes de l'ACF se coupent très lentement). Ainsi, j'utilise la différenciation et j'obtiens: Ce …
J'ai des données qui décrivent la fréquence à laquelle un événement se produit pendant une heure ("nombre par heure", nph) et la durée des événements ("durée en secondes par heure", dph). Ce sont les données d'origine: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, …
Une personne reçoit trois articles, par exemple des images de visages, et est invitée à choisir quels sont les deux visages les plus similaires. Cette opération est répétée un grand nombre de fois avec différentes combinaisons de visages, chaque visage pouvant apparaître dans de nombreuses combinaisons. Compte tenu de ce …
C'est une question assez générique: supposons que je veuille construire un modèle pour prédire la prochaine observation sur la base des observations précédentes ( peut être un paramètre à optimiser expérimentalement). Nous avons donc essentiellement une fenêtre coulissante d'entités d'entrée pour prédire la prochaine observation.NNNNNN Je peux utiliser une approche …
Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …
J'ai deux groupes de 10 participants qui ont été évalués trois fois au cours d'une expérience. Pour tester les différences entre les groupes et entre les trois évaluations, j'ai exécuté une ANOVA de conception mixte 2x3 avec group(contrôle, expérimental), time(premier, deuxième, trois) et group x time. Les deux timeet grouprésulté …
J'essaie donc de mieux comprendre les graphiques Lift and Gain tels qu'ils s'appliquent à mon modèle de rotation des employés (c'est-à-dire utilisé CHAID dans SPSS Modeler). Pour mes données, cela signifie prévoir le nombre de personnes qui quittent volontairement l'entreprise. J'ai examiné les références ci-dessous et j'ai les bases concernant …
Dans de nombreuses applications de traitement du langage naturel telles que la correction d'orthographe, la traduction automatique et la reconnaissance vocale, nous utilisons des modèles de langage. Les modèles de langage sont généralement créés en comptant la fréquence à laquelle les séquences de mots (n-grammes) se produisent dans un grand …
J'essaie d'adapter une régression logistique où il y a une énorme différence dans le nombre de points de données dans les deux groupes (70 Vs 10 000). Un de mes amis statisticien m'a dit que c'est un problème connu de régression logistique et que pour ces types de chiffres, il …
Je jouais avec ggplot2 en utilisant les commandes suivantes pour ajuster une ligne à mes données: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Les points rouges sont des valeurs médianes, le bleu est la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.