Statistiques et Big Data

3

Quelle est la bonne façon d'utiliser R pour créer un nuage de points qui sépare les données par traitement?

Je suis très nouveau avec R et les statistiques en général, mais je dois faire un nuage de points qui, je pense, pourrait dépasser ses capacités natives. J'ai quelques vecteurs d'observations et je veux faire un nuage de points avec eux, et chaque paire appartient à une catégorie sur trois. …

30 r data-visualization scatterplot

8

Quelles théories chaque statisticien devrait-il connaître?

J'y pense d'un point de vue des exigences minimales et très basiques. Quelles sont les théories clés qu'un statisticien de l'industrie (et non universitaire) devrait connaître, comprendre et utiliser régulièrement? Un grand qui vient à l'esprit est la loi des grands nombres . Quels sont les plus essentiels pour appliquer …

30 theory careers law-of-large-numbers

5

Stratégies d'enseignement de la distribution d'échantillonnage

La version tl; dr Quelles stratégies réussies utilisez-vous pour enseigner la distribution d'échantillonnage (d'une moyenne d'échantillon, par exemple) au niveau de l'introduction au premier cycle? L'arrière-plan En septembre, j'enseignerai un cours d'introduction aux statistiques pour les étudiants de deuxième année en sciences sociales (principalement les sciences politiques et la sociologie) …

30 distributions sampling teaching

9

Quelle est la différence entre un estimateur et une statistique?

J'ai appris qu'une statistique est un attribut que vous pouvez obtenir à partir d'échantillons.En prenant de nombreux échantillons de même taille, en calculant cet attribut pour chacun d'eux et en traçant le pdf, nous obtenons la distribution de l'attribut correspondant ou la distribution des statistiques correspondantes. J'ai aussi entendu dire …

30 terminology estimators definition

4

Optimisation des courbes précision-rappel sous déséquilibre de classe

J'ai une tâche de classification où j'ai un certain nombre de prédicteurs (dont l'un est le plus informatif), et j'utilise le modèle MARS pour construire mon classificateur (je suis intéressé par n'importe quel modèle simple, et utiliser glms à des fins d'illustration serait bien aussi). Maintenant, j'ai un énorme déséquilibre …

30 machine-learning roc precision-recall unbalanced-classes data-visualization

2

Interprétation des biplots dans l'analyse des composants principaux

Je suis tombé sur ce joli tutoriel: Un manuel d'analyses statistiques utilisant R. Chapitre 13. Analyse en composantes principales: L'heptathlon olympique sur la façon de faire l'APC en langage R. Je ne comprends pas l'interprétation de la figure 13.3: Je trace donc le premier vecteur propre contre le deuxième vecteur …

30 r pca data-visualization interpretation biplot

4

Vérifier si deux échantillons de Poisson ont la même moyenne

C'est une question élémentaire, mais je n'ai pas pu trouver la réponse. J'ai deux mesures: n1 événements au temps t1 et n2 événements au temps t2, tous deux produits (disons) par des processus de Poisson avec des valeurs lambda éventuellement différentes. Il s'agit en fait d'un article de presse, qui …

30 hypothesis-testing poisson-distribution

3

Dans quelle mesure R est-il adapté aux tâches de classification de texte? [fermé]

J'essaye d'obtenir jusqu'à la vitesse avec R. Je veux finalement utiliser les bibliothèques R pour faire la classification de texte. Je me demandais simplement quelles sont les expériences des gens en ce qui concerne l'évolutivité de R quand il s'agit de faire une classification de texte. Je suis susceptible de …

30 r machine-learning svm text-mining random-forest

3

Comment définir rigoureusement la probabilité?

La probabilité pourrait être définie de plusieurs façons, par exemple: la fonction de qui mappe à ie .LLLΘ×XΘ×X\Theta\times{\cal X}(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} la fonction aléatoireL(⋅∣X)L(⋅∣X)L(\cdot \mid X) on pourrait aussi considérer que la vraisemblance n'est que la vraisemblance "observée"L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) en pratique, la vraisemblance n'apporte des informations …

30 mathematical-statistics likelihood likelihood-ratio parametric

3

Visualiser les intersections de nombreux ensembles

Existe-t-il un modèle de visualisation permettant de montrer le chevauchement d'intersections de nombreux ensembles? Je pense à quelque chose comme les diagrammes de Venn, mais cela pourrait se prêter d'une manière ou d'une autre à un plus grand nombre d'ensembles tels que 10 ou plus. Wikipédia montre des diagrammes Venn …

30 data-visualization dataset

6

Estimation de l'intervalle de confiance binomial - pourquoi n'est-elle pas symétrique?

J'ai utilisé le code r suivant pour estimer les intervalles de confiance d'une proportion binomiale parce que je comprends que cela se substitue à un "calcul de puissance" lors de la conception de récepteurs fonctionnant avec des courbes caractéristiques en vue de détecter des maladies dans une population. n est …

30 confidence-interval binomial

2

Quelle est la différence entre le test de normalité de Shapiro-Wilk et le test de normalité de Kolmogorov-Smirnov?

Quelle est la différence entre le test de normalité de Shapiro-Wilk et le test de normalité de Kolmogorov-Smirnov? Quand les résultats de ces deux méthodes seront-ils différents?

30 distributions statistical-significance normality-assumption kolmogorov-smirnov

6

Quand les intervalles de confiance sont-ils utiles?

Si je comprends bien, un intervalle de confiance d'un paramètre est un intervalle construit par une méthode qui donne des intervalles contenant la vraie valeur pour une proportion spécifiée d'échantillons. La «confiance» concerne donc la méthode plutôt que l'intervalle que je calcule à partir d'un échantillon particulier. En tant qu'utilisateur …

30 confidence-interval interpretation

1

Comment le centrage fait-il une différence dans l'ACP (pour la décomposition SVD et propre)?

Quelle différence le centrage (ou la dé-signification) de vos données fait-il pour l'ACP? J'ai entendu dire que cela rend les calculs plus faciles ou qu'elle empêche le premier PC d'être dominé par les moyens des variables, mais j'ai l'impression que je n'ai pas encore pu saisir fermement le concept. Par …

30 r pca svd eigenvalues centering

6

Quelle est la différence entre la régression logistique et le perceptron?

Je passe en revue les notes de cours d'Andrew Ng sur l'apprentissage automatique. Les notes nous initient à la régression logistique puis au perceptron. Tout en décrivant Perceptron, les notes disent que nous venons de changer la définition de la fonction de seuil utilisée pour la régression logistique. Après cela, …

30 regression machine-learning self-study logistic perceptron