Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Peut-on effectuer une régression linéaire simple sans utiliser de graphiques et d'algèbre linéaire?

Je suis complètement aveugle et je viens de la programmation. Ce que j'essaie de faire, c'est d'apprendre à apprendre par la machine. Pour ce faire, je dois d'abord apprendre la régression linéaire. Toutes les explications que je trouve sur Internet sur ce sujet tracent les données en premier. Je cherche …

47 regression intuition

Déséquilibre de classe dans l'apprentissage automatique supervisé

C'est une question en général, non spécifique à une méthode ou à un ensemble de données. Comment traiter un problème de déséquilibre de classe dans l'apprentissage automatique supervisé, où le nombre de 0 est d'environ 90% et le nombre de 1 d'environ 10% dans votre jeu de données. Comment former …

47 machine-learning unbalanced-classes supervised-learning

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Puis-je les utiliser indifféremment?

Dans. 34 de son PRNN, Brian Ripley, a déclaré que "Akaike (1974) a désigné l'AIC comme" un critère d'information "bien qu'il semble communément admis que le" A "signifie Akaike". Akaike (1974, p. 719) explique en introduisant la statistique AIC que "IC stands for information criterion and A is added so …

47 forecasting model-selection aic bic

Nombre optimal de plis en -fold validation croisée: est leave-one-out CV toujours le meilleur choix?

Mis à part les considérations relatives à la puissance de calcul, y a-t-il des raisons de penser que l' augmentation du nombre de plis lors de la validation croisée conduit à une meilleure sélection / validation du modèle (en d'autres termes, plus le nombre de plis est élevé, mieux c'est). …

47 cross-validation bias-variance-tradeoff

Interprétation de QQplot - Existe-t-il une règle de base pour décider de la non-normalité?

J'ai lu assez de discussions sur QQplots ici pour comprendre qu'un QQplot peut être plus informatif que d'autres tests de normalité. Cependant, je suis inexpérimenté avec l'interprétation de QQplots. J'ai googlé beaucoup; J'ai trouvé beaucoup de graphiques de QQtrots non normaux, mais pas de règles claires sur la façon de …

47 interpretation normality-assumption qq-plot

Pourquoi l'attente est-elle la même chose que la moyenne arithmétique?

Aujourd'hui, je suis tombé sur un nouveau sujet appelé l'espérance mathématique. Dans le livre que je suis en train de suivre, l’attente est la moyenne arithmétique des variables aléatoires provenant de toute distribution de probabilité. Mais, il définit les attentes comme la somme du produit de certaines données et de …

47 expected-value

Les splines surchargent-elles les données?

Mon problème : j'ai récemment rencontré un statisticien qui m'a informé que les splines ne sont utiles que pour explorer des données et sont sujettes à un surajustement, ce qui n'est donc pas utile pour la prédiction. Il préférait explorer avec des polynômes simples ... Comme je suis un grand …

47 regression splines

Comment trouver des pics dans un jeu de données?

Si j'ai un ensemble de données qui produit un graphique tel que celui-ci, comment pourrais-je déterminer par un algorithme les valeurs x des pics affichés (dans ce cas, trois d'entre elles):

47 data-visualization mode

Comment faire la sélection du sous-ensemble de régression logistique?

Je monte une famille de binômes dans R, et j'ai toute une troupe de variables explicatives, et j'ai besoin de trouver le meilleur (R au carré comme mesure, ça va). À part écrire un script pour parcourir différentes combinaisons aléatoires de variables explicatives et ensuite enregistrer qui donne les meilleurs …

47 r logistic

Tutoriel statistiques bayésiennes

J'essaie de prendre de la vitesse dans Bayesian Statistics. J'ai un peu de fond de statistiques (STAT 101) mais pas trop - je pense que je peux comprendre avant, après, et vraisemblance: D. Je ne veux pas lire un manuel bayésien pour l'instant. Je préférerais lire à partir d'une source …

47 bayesian references

Premier code de paquetage R à étudier en vue de la rédaction de son propre paquetage

Je prévois de commencer à écrire des packages R. J'ai pensé qu'il serait bon d'étudier le code source des paquets existants pour apprendre les conventions de la construction de paquets. Mes critères pour les bons forfaits à étudier: Idées statistiques / techniques simples : il s’agit d’apprendre les mécanismes de …

47 r

Termes statistiques les plus déroutants

En tant que statisticiens, nous utilisons beaucoup de mots de manière légèrement différente de celle utilisée par tout le monde. Cela cause beaucoup de problèmes lorsque nous enseignons ou expliquons ce que nous faisons. Je vais commencer une liste (et maintenant je vais ajouter quelques définitions, par commentaires): Le pouvoir …

47 terminology communication

Est-il possible de regrouper des séries chronologiques en fonction de la forme de la courbe?

J'ai des données sur les ventes pour une série de points de vente et je souhaite les classer en fonction de la forme de leurs courbes au fil du temps. Les données ressemblent à peu près à ceci (mais ne sont évidemment pas aléatoires et ont des données manquantes): n.quarters …

47 r time-series clustering

Lorsqu’on effectue un test t, pourquoi préférerait-on supposer (ou tester) des variances égales plutôt que d’utiliser toujours une approximation de Welch de la df?

Lorsque l'hypothèse d'homogénéité de la variance est vérifiée, il semble que les résultats d'un test t ajusté de Welch et d'un test t standard soient approximativement les mêmes. Pourquoi ne pas simplement simplement utiliser le Welch ajusté t?

47 variance t-test heteroscedasticity

Clarification sur l'interprétation des intervalles de confiance?

Ma compréhension actuelle de la notion "intervalle de confiance avec le niveau de confiance 1−α1−α1 - \alpha " est que, si nous essayions de calculer plusieurs fois cet intervalle (chaque fois avec un nouvel échantillon), il contiendrait le paramètre correct 1−α1−α1 - \alpha de l'heure. Bien que je me rende …

47 confidence-interval

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.