Statistiques et Big Data

4

Comment calculer la distribution cumulée dans R?

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. J'ai besoin de calculer la fonction de distribution cumulative d'un échantillon de données. Y a-t-il quelque chose de similaire à hist …

23 r distributions cdf

3

Quels modèles de prévision communs peuvent être considérés comme des cas particuliers de modèles ARIMA?

Ce matin, je me suis réveillé en me demandant (cela pourrait être dû au fait que la nuit dernière je n'ai pas beaucoup dormi): étant donné que la validation croisée semble être la pierre angulaire de la prévision des séries chronologiques, quels sont les modèles que je devrais "normalement "contre-valider? …

23 time-series cross-validation arima

3

Succès de K dans les essais de Bernoulli ou l'expérience cinématographique de George Lucas

Je lis "The Drunkard's Walk" maintenant et je ne peux pas en comprendre une histoire. Ça y est: Imaginez que George Lucas réalise un nouveau film Star Wars et décide dans un marché de test de réaliser une expérience folle. Il sort le film identique sous deux titres: "Star Wars: …

23 probability bernoulli-distribution

3

Visualisation de l'étalonnage de la probabilité prédite d'un modèle

Supposons que j'ai un modèle prédictif qui produit, pour chaque instance, une probabilité pour chaque classe. Je reconnais maintenant qu'il existe de nombreuses façons d'évaluer un tel modèle si je veux utiliser ces probabilités pour la classification (précision, rappel, etc.). Je reconnais également qu'une courbe ROC et l'aire sous-jacente peuvent …

23 data-visualization classification predictive-models binary-data calibration

2

Les techniques d'apprentissage automatique sont-elles des «algorithmes d'approximation»?

Récemment, il y a eu une question de type ML sur cstheory stackexchange, et j'ai posté une réponse recommandant la méthode de Powell, la descente de gradient, les algorithmes génétiques ou autres "algorithmes d'approximation". Dans un commentaire, quelqu'un m'a dit que ces méthodes étaient des "heuristiques" et non des "algorithmes …

23 machine-learning optimization approximation

1

Erreur quadratique moyenne vs erreur quadratique moyenne de prédiction

Quelle est la différence sémantique entre l'erreur quadratique moyenne (MSE) et l'erreur quadratique moyenne de prédiction (MSPE)?

23 regression estimation interpretation error prediction

4

Existe-t-il un équivalent non paramétrique de Tukey HSD?

J'utilise JMP pour examiner les différences de couverture végétale dans les groupes de formes de croissance (arbres, arbustes, forbes, etc.) avant et après trois traitements avec un témoin. Ma taille d'échantillon est petite (n = 5) et la plupart de mes distributions ne sont pas normalement distribuées. Pour les distributions …

23 multiple-comparisons nonparametric tukey-hsd

2

Distribution d'une distance de Mahalanobis au niveau de l'observation

Si j'ai un échantillon iid normal multivarié , et définissez (qui est une sorte de distance de Mahalanobis [au carré] d'un point d'échantillon au vecteur utilisant la matrice pour la pondération), quelle est la distribution de d_i ^ 2 (\ bar X, S) (distance de Mahalanobis au moyenne de l'échantillon …

23 multivariate-analysis outliers

4

Y a-t-il toujours un maximiseur pour tout problème MLE?

Je me demande s'il y a toujours un maximiseur pour tout problème d'estimation de vraisemblance maximale (log)? En d'autres termes, existe-t-il une distribution et certains de ses paramètres pour lesquels le problème MLE n'a pas de maximiseur? Ma question vient d'une affirmation d'un ingénieur selon laquelle la fonction de coût …

23 maximum-likelihood optimization

3

Comment tester l'autocorrélation des résidus?

J'ai une matrice avec deux colonnes qui ont beaucoup de prix (750). Dans l'image ci-dessous, j'ai tracé les résidus de la régression linéaire suivante: lm(prices[,1] ~ prices[,2]) En regardant l'image, cela semble être une très forte autocorrélation des résidus. Cependant, comment puis-je tester si l'autocorrélation de ces résidus est forte? …

23 r regression correlation autocorrelation

3

Sites pour les compétitions de modélisation prédictive

Je participe à des compétitions de modélisation prédictive sur Kaggle , TunedIt et CrowdAnalytix . Je trouve que ces sites sont un bon moyen de "travailler" pour les statistiques / l'apprentissage automatique. Y a-t-il d'autres sites que je devrais connaître? Que pensez-vous tous des compétitions où l'hôte a l'intention de …

23 machine-learning predictive-models

4

Quels sont les moyens efficaces d'organiser le code R et la sortie? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . Je recherche des informations sur la façon dont les autres organisent leur code …

23 r project-management

3

Générer des données corrélées aléatoires entre une variable binaire et une variable continue

Je veux générer deux variables. L'un est une variable de résultat binaire (disons succès / échec) et l'autre est l'âge en années. Je veux que l'âge soit en corrélation positive avec le succès. Par exemple, il devrait y avoir plus de succès dans les tranches d'âge supérieures que dans les …

23 correlation random-variable random-generation binary-data

4

En tant que réviseur, puis-je justifier que les données et le code soient mis à disposition même si le journal ne le fait pas?

Comme la science doit être reproductible, par définition, il est de plus en plus reconnu que les données et le code sont un élément essentiel de la reproductibilité, comme discuté par la table ronde de Yale pour le partage des données et du code . En examinant un manuscrit pour …

23 dataset validation reproducible-research journals

4

Faut-il supprimer les cas signalés comme aberrants par les logiciels statistiques lors de la régression multiple?

J'effectue plusieurs analyses de régression et je ne sais pas si les valeurs aberrantes de mes données doivent être supprimées. Les données qui m'inquiètent apparaissent sous forme de «cercles» sur les boîtes à moustaches SPSS, mais il n'y a pas d'astérisques (ce qui me fait penser qu'elles ne sont pas …

23 regression outliers