Statistiques et Big Data reproducible-research

2

Que savons-nous du piratage informatique «à l'état sauvage»?

La phrase p- achalandage (aussi: "dragage de données" , "espionnage" ou "pêche") fait référence à divers types de fautes statistiques dans lesquelles les résultats deviennent artificiellement statistiquement significatifs. Il existe de nombreuses façons d'obtenir un résultat "plus significatif", notamment, sans s'y limiter: analyser uniquement un sous-ensemble "intéressant" de données dans …

94 hypothesis-testing statistical-significance p-value model-selection reproducible-research

15

Compléter des exemples concrets de recherches reproductibles utilisant R

La question: Existe-t-il de bons exemples de recherche reproductible utilisant R qui sont disponibles gratuitement en ligne? Exemple idéal: Plus précisément, des exemples idéaux fourniraient: Les données brutes (et idéalement les métadonnées expliquant les données), Tout le code R, y compris l’importation, le traitement, les analyses et la production de …

71 r references reproducible-research

8

Générer une variable aléatoire avec une corrélation définie avec une ou plusieurs variables existantes

Pour une étude de simulation , je dois générer des variables aléatoires qui montrent une corrélation prefined (population) à une variable existante .YYY J'ai examiné les Rpackages copulaet ceux CDVinequi peuvent produire des distributions multivariées aléatoires avec une structure de dépendance donnée. Cependant, il n'est pas possible de fixer l'une …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

3

Comment définissons-nous la «recherche reproductible»?

Cela a été soulevé dans quelques questions maintenant, et je me demandais quelque chose. Le champ dans son ensemble est-il passé à la "reproductibilité" en mettant l'accent sur la disponibilité des données d'origine et du code en question? On m'a toujours appris que le cœur de la reproductibilité n'était pas …

50 reproducible-research philosophical

8

Comment amener les gens à mieux prendre en charge les données?

Mon lieu de travail emploie des employés de très nombreuses disciplines. Nous générons donc des données sous différentes formes. En conséquence, chaque équipe a développé son propre système de stockage de données. Certains utilisent des bases de données Access ou SQL; certaines équipes (à ma grande horreur) dépendent presque entièrement …

42 dataset reproducible-research quality-control

5

La valeur p est-elle essentiellement inutile et dangereuse à utiliser?

Cet article du New York Times " Les chances, continuellement mises à jour" a attiré mon attention. Pour être bref, il est écrit que [Les statistiques bayésiennes] se révèlent particulièrement utiles pour aborder des problèmes complexes, y compris des recherches telles que celle utilisée par la Garde côtière en 2013 …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

6

Comment augmenter la reproductibilité à long terme de la recherche (en particulier en utilisant R et Sweave)

Contexte: En réponse à une question précédente sur la recherche reproductible, Jake a écrit Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient changé. Donc, dans cette archive, nous incluons également les …

31 r reproducible-research project-management

3

Qui suivre sur github pour en savoir plus sur les meilleures pratiques en matière d'analyse de données?

Il est utile d'étudier le code d'analyse des données des experts. J'ai récemment parcouru github et il y a un certain nombre de personnes qui partagent du code d'analyse de données là-bas. Cela inclut quelques packages R (qui bien sûr sont disponibles directement auprès du CRAN), mais aussi plusieurs exemples …

28 r reproducible-research

2

Quelles sont les pratiques standard pour créer des ensembles de données synthétiques?

Comme contexte: lorsque je travaille avec un ensemble de données très volumineux, on me demande parfois si nous pouvons créer un ensemble de données synthétiques où nous «connaissons» la relation entre les prédicteurs et la variable de réponse, ou les relations entre les prédicteurs. Au fil des ans, je semble …

26 modeling reproducible-research synthetic-data

4

En tant que réviseur, puis-je justifier que les données et le code soient mis à disposition même si le journal ne le fait pas?

Comme la science doit être reproductible, par définition, il est de plus en plus reconnu que les données et le code sont un élément essentiel de la reproductibilité, comme discuté par la table ronde de Yale pour le partage des données et du code . En examinant un manuscrit pour …

23 dataset validation reproducible-research journals

1

Les performances de pointe rapportées de l'utilisation de vecteurs de paragraphe pour l'analyse des sentiments ont-elles été reproduites?

J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

1

Comment créer des tableaux colorés avec Sweave et xtable? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise Sweave et xtable pour générer un rapport. Je voudrais ajouter …

17 r reproducible-research

1

Et si la précision de validation était élevée mais la précision de test faible dans la recherche?

J'ai une question spécifique sur la validation dans la recherche d'apprentissage automatique. Comme nous le savons, le régime d'apprentissage automatique demande aux chercheurs de former leurs modèles sur les données de formation, de choisir parmi les modèles candidats par ensemble de validation et de rendre compte de la précision sur …

15 machine-learning cross-validation reproducible-research

3

Options d'hébergement pour les données accessibles au public

Vous avez donc décidé de soutenir l'idée d'une recherche reproductible et souhaitez rendre vos données disponibles en ligne pour que les gens puissent les voir et les utiliser. La question est, où l'hébergez-vous? Ma première inclination est bien sûr l'espace Web privé que j'ai sur un serveur universitaire, mais ces …

12 reproducible-research

4

Implications du débat actuel sur la signification statistique

Au cours des dernières années, divers chercheurs ont soulevé un problème préjudiciable de test d'hypothèse scientifique, surnommé "degré de liberté du chercheur", ce qui signifie que les scientifiques ont de nombreux choix à faire lors de leur analyse qui biaisent vers la recherche avec une valeur p <5%. Ces choix …

10 hypothesis-testing inference philosophical reproducible-research social-science

Questions marquées «reproducible-research»