Quelles sont les branches des statistiques?


30

En mathématiques, il existe des branches telles que l'algèbre, l'analyse, la topologie, etc. Dans l'apprentissage automatique, il y a l'apprentissage supervisé, non supervisé et par renforcement. Dans chacune de ces branches, il existe des branches plus fines qui divisent davantage les méthodes.

J'ai du mal à établir un parallèle avec les statistiques. Quelles seraient les principales branches des statistiques (et sous-branches)? Une partition parfaite n'est probablement pas possible, mais tout vaut mieux qu'une grande carte vierge.

Exemples visuels: entrez la description de l'image ici entrez la description de l'image ici


6
Pour offrir une autre raison pour laquelle cette question est sans réponse (et pourquoi, peut-être, la prémisse est mal placée): il est mal compris que l'objectif de la science théorique dure (comme les mathématiques) est de généraliser plutôt que de se spécialiser . Donc, si nous devions visualiser la trajectoire d'une enquête réussie sur le terrain, nous ne le verrions pas comme se ramifiant en branches plus petites et plus raffinées, mais plutôt comme une lentille qui s'élargit toujours en concepts et pensées plus abstraites.
AdamO

La réponse de @Rob Hyndman me semble toujours frapper. Je suis très sceptique quant à toute classification ici. De plus, c'est un endroit aussi bon que n'importe quel autre pour signaler qu'une liste de sujets qui se présente à quelqu'un est bien en deçà d'une classification basée sur un arbre. Et bien que les dendrogrammes ou les représentations de boules de poils soient légèrement intrigants, à quoi servent-ils ou intéressent-ils réellement au-delà de la démonstration de la nature multiple du domaine?
Nick Cox

Réponses:


52

Je trouve ces systèmes de classification extrêmement inutiles et contradictoires. Par exemple:

  • les réseaux de neurones sont une forme d'apprentissage supervisé
  • Le calcul est utilisé en géométrie différentielle
  • La théorie des probabilités peut être formalisée dans le cadre de la théorie des ensembles

etc. Il n'y a pas de "branches" sans ambiguïté des mathématiques, et il ne devrait pas non plus y avoir de statistiques.


11
"les réseaux de neurones sont une forme d'apprentissage supervisé". Ce n'est pas entièrement vrai non plus, n'est-ce pas? Je veux dire, on pourrait utiliser (et utilise) des NN dans l'apprentissage supervisé, l'apprentissage non supervisé et même l'apprentissage par renforcement! Eh bien le concept de réseaux neuronaux au moins (c'est juste une énorme fonction non linéaire qui peut être optimisée par diverses méthodes d'optimisation, parmi lesquelles SL, UL et RL). Mais peut-être que la terminologie est simplement utilisée de la façon dont vous l'utilisez, auquel cas .. n'importe qui peut avoir raison.
BlueRine S

7
Bien sûr, il n'y a pas de vérité, mais ce n'est pas vraiment utile. Existe-t-il un modèle qui réponde aux besoins du PO?
Jay Schyler Raadt

3
Rob a raison. Les arbres de décision sont utilisés dans la régression et AdaBoost est une méthode de classification, mais la carte ne le montre pas.
Zen

4
J'avoue que je ne comprends pas vraiment cette perspective. Un manuel de statistiques doit également avoir la séquence de ses chapitres organisée d'une certaine manière, et sa page de contenu reflète cette organisation. La structure de la page de contenu contient au moins quelques informations sur la façon dont les concepts du champ sont organisés, et cela de manière beaucoup plus limitée qu'une visualisation ne le permettrait. Si personne n'a de problème avec l'existence de pages de contenu de manuel même si elles ne capturent pas la complexité du champ, je ne vois pas pourquoi on s'opposerait à une visualisation comme celle que l'OP espère.
mkt

4
Les manuels ne sont pas structurés de façon hiérarchique, ils sont structurés de façon linéaire. Plus loin dans le livre, des liens entre les premiers chapitres sont souvent développés, montrant que les sujets présentés séparément plus tôt sont réellement liés. Pour prendre un exemple, mon propre manuel sur les prévisions où nous introduisons des modèles de régression dynamique dans un chapitre ultérieur, reliant les modèles de régression et ARIMA présentés plus tôt.
Rob Hyndman

29

Il s'agit d'un contrepoint mineur à la réponse de Rob Hyndman. Cela a commencé comme un commentaire, puis est devenu trop complexe pour un. Si cela est trop loin de répondre à la question principale, je m'excuse et la supprimerai.


La biologie dépeint des relations hiérarchiques depuis bien avant le premier doodle de Darwin (voir le commentaire de Nick Cox pour un lien). La plupart des relations évolutives sont toujours montrées avec ce type d'arbre phylogénétique agréable, propre et ramifié:

entrez la description de l'image ici Cependant, nous avons finalement réalisé que la biologie est plus compliquée que cela. Il y a parfois des échanges génétiques (par croisement et autres processus) entre des espèces et des gènes distincts présents dans une partie de l'arbre qui «sautent» vers une autre partie de l'arbre. Le transfert horizontal de gènes déplace les gènes d'une manière qui rend la représentation de l'arbre simple ci-dessus inexacte. Cependant, nous n'avons pas abandonné les arbres, mais simplement créé des modifications à ce type de visualisation:

Identique à la figure précédente, mais avec le transfert de gènes entre les branches montré

C'est plus difficile à suivre, mais cela donne une image plus précise de la réalité.

Un autre exemple:

entrez la description de l'image ici

Cependant, nous n'introduisons jamais ces figures plus complexes pour commencer, car elles sont difficiles à saisir sans comprendre les concepts de base. Au lieu de cela, nous enseignons l'idée de base avec la figure simple, puis les présentons avec la figure la plus complexe et les complications les plus récentes de l'histoire.

De même, toute «carte» des statistiques serait à la fois inexacte et un outil pédagogique précieux. Les visualisations du formulaire OP suggèrent sont très utiles pour les étudiants et ne doivent pas être ignorées simplement parce qu'elles ne parviennent pas à capturer la réalité au total. Nous pouvons ajouter plus de complexité à l'image une fois qu'ils ont un cadre de base en place.


4
FWIW, les représentations arborescentes des relations entre les organismes sont antérieures à Darwin. J'ajouterai une référence plus tard.
Nick Cox


3
Pas tant un contrepoint qu'un argument de soutien: remettre en cause la validité des arbres. Au moins, avec la phylogénie, nous utilisons des données pour créer une telle structure, que ce soit des enregistrements fossiles, l'expression de gènes, n'importe quoi. Sans données, nous demandons sérieusement qui a le pouvoir de choisir les blocs et les flèches qui propagent la désinformation.,
AdamO

2
@AdamO Je ne m'attends pas à ce qu'il existe une seule «carte» de statistiques universelles. Il est parfaitement raisonnable pour deux personnes d'utiliser des structures et des ensembles de liens différents, bien que l'on s'attende à ce que la structure générale soit raisonnablement robuste (des différences de bas niveau se produisent également entre les arbres phylogénétiques construits à partir du même ensemble de données, bien qu'à ce stade, nous soyons étirer la métaphore trop loin). Je dirais que l' expertise (en laissant de côté les notions d'autorité pour le moment) existe parmi les nombreuses personnes qui ont écrit des manuels de statistiques générales, ou même enseigné des statistiques générales.
mkt

2
J'ai suffisamment aimé les diagrammes ici pour voter positivement, mais cela ne répond pas vraiment à la question.
Nick Cox

24

Vous pouvez consulter les mots clés / balises du site Web Cross Validated.


Les succursales en réseau

Une façon de le faire est de le représenter comme un réseau basé sur les relations entre les mots clés (à quelle fréquence ils coïncident dans le même article).

Lorsque vous utilisez ce script sql pour obtenir les données du site à partir de (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Ensuite, vous obtenez une liste de mots clés pour toutes les questions avec un score de 2 ou plus.

Vous pouvez explorer cette liste en traçant quelque chose comme ceci:

relations entre les balises

Mise à jour: la même chose avec la couleur (basée sur les vecteurs propres de la matrice de relation) et sans la balise d'auto-étude

relations entre les balises

Vous pouvez nettoyer ce graphique un peu plus loin (par exemple, supprimer les balises qui ne se rapportent pas à des concepts statistiques comme les balises logicielles, dans le graphique ci-dessus, cela est déjà fait pour la balise 'r') et améliorer la représentation visuelle, mais je suppose que cette image ci-dessus montre déjà un bon point de départ.

Code R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Branches hiérarchiques

Je crois que ces types de graphiques de réseau ci-dessus se rapportent à certaines des critiques concernant une structure hiérarchique purement ramifiée. Si vous le souhaitez, je suppose que vous pouvez effectuer un clustering hiérarchique pour le forcer dans une structure hiérarchique.

Voici un exemple d'un tel modèle hiérarchique. Il faudrait encore trouver des noms de groupe appropriés pour les différents clusters (mais, je ne pense pas que ce clustering hiérarchique soit la bonne direction, donc je le laisse ouvert).

classification hiérarchique

La mesure de distance pour le clustering a été trouvée par essais et erreurs (en faisant des ajustements jusqu'à ce que les clusters paraissent bien.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Écrit par StackExchangeStrike


2
Je vais peut-être travailler pour rendre les graphiques plus nets. Il pourrait être agréable d'avoir des graphiques clairs qui cartographient les sujets sur ce site Web.
Sextus Empiricus

1
C'est une excellente approche! Bien fait.
Andrew Brēza

À partir de votre graphique en couleur, les trois grands domaines sont la probabilité, la régression et l'apprentissage automatique.
Matt F.

@MattF. le graphique est en fait un peu problématique et correspond davantage à la fréquence d'utilisation. J'ai essayé de mettre à l'échelle la matrice par la fréquence (comme passer de la matrice de covariance à la matrice de corrélation), mais cela n'a pas beaucoup changé. Le graphique 2D ne montre pas très bien la structure et le modèle physique, qui traite les chemins comme des chaînes, place les nœuds dans une forme hexagonale / triangulaire (ce qui est le plus efficace).
Sextus Empiricus

1
Je dirais que sur stackoverflow, il existe cinq catégories principales: la probabilité, la régression, l'apprentissage automatique, mais aussi les tests d'hypothèses et les séries chronologiques.
Sextus Empiricus

9

Une façon simple de répondre à votre question consiste à consulter les tableaux de classification courants. Par exemple, la classification des matières mathématiques de 2010 est utilisée par certaines publications pour classer les articles. Celles-ci sont pertinentes car c'est ainsi que de nombreux auteurs classent leurs propres articles. entrez la description de l'image ici

Il existe de nombreux exemples de classifications similaires, par exemple la classification d'Arxiv ou l' UDK (Universal Decimal Classifictaion) du ministère russe de l'Éducation, qui est largement utilisé pour toutes les publications et recherches.

entrez la description de l'image ici

Un autre exemple est JEL Claasification System de l'American Economic Association. L'article de Rob Hyndman " Prévision automatique des séries chronologiques: le paquet de prévisions pour R. " Il est classé comme C53, C22, C52 selon JEL. Hyndman a cependant raison de critiquer les classifications des arbres. Une meilleure approche pourrait être le balisage, par exemple les mots-clés dans son article sont: "Modèles ARIMA, prévision automatique, lissage exponentiel, intervalles de prédiction, modèles d'espace d'état, séries chronologiques, R." On pourrait dire que ce sont de meilleures façons de classer les articles, car ils ne sont pas hiérarchiques et plusieurs hiérarchies pourraient être construites.

@whuber a souligné que certaines avancées récentes telles que l'apprentissage automatique ne figureront pas dans les statistiques des classifications actuelles. Par exemple, jetez un oeil à l'article " Deep Learning: An Introduction for Applied Mathematicians " par Catherine F. Higham, Desmond J. Higham. Ils ont classé leur papier sous MSC susmentionné comme 97R40, 68T01, 65K10, 62M45. ce sont sous l'informatique, l'enseignement des mathématiques et l'analyse numérique en plus des statistiques


3
Je pense qu'il serait plus exact de dire que c'est ainsi que beaucoup d'auteurs sont invités à classer leurs articles. Je sais que je ne suis jamais tout à fait satisfait lorsqu'on me demande d'employer de telles catégories a priori à mon travail.
Alexis

6
C'est une bonne base pour identifier les branches des statistiques mathématiques. Savoir cela nous aide à identifier ce qui a été laissé de côté, ce qui inclut de nombreuses parties de l'apprentissage automatique. En effet, il peut être juste de caractériser la classification des matières mathématiques de 2010 comme décrivant les "statistiques de 1950", puis de jeter tout ce qui a émergé plus tard, comme la géostatistique, la génomique, le bootstrap, etc. (dont certains peuvent relever de ces anciennes catégories, peut-être).
whuber

4

Une façon d'aborder le problème consiste à examiner les réseaux de citations et de co-auteurs dans des revues statistiques, comme les Annals of Statistics, Biometrika, JASA et JRSS-B. Cela a été fait par:

Ji, P. et Jin, J. (2016). Réseaux de coauteurs et de citations pour les statisticiens. The Annals of Applied Statistics, 10 (4), 1779-1812.

Ils ont identifié des communautés de statisticiens et utilisé leur compréhension du domaine pour étiqueter les communautés comme:

  • Analyse de données à haute dimension (HDDA-Coau-A)
  • Apprentissage machine théorique
  • Réduction de dimension
  • Johns Hopkins
  • Duc
  • Stanford
  • Régression quantile
  • Conception expérimentale
  • Objectif Bayes
  • Biostatistique
  • Analyse de données à haute dimension (HDDA-Coau-B)
  • Tests multiples à grande échelle
  • Sélection variable
  • Statistiques spatiales et semi-paramétriques / non paramétriques

Le document comprend une discussion détaillée des communautés ainsi que des décompositions des plus grandes dans d'autres sous-communautés.

Cela ne répond peut-être pas entièrement à la question, car cela concerne les domaines de la recherche de statisticiens plutôt que tous les domaines, y compris ceux qui ne sont plus actifs. J'espère que cela sera néanmoins utile. Bien sûr, il y a d'autres mises en garde (comme considérer uniquement ces quatre revues) qui sont discutées plus loin dans le document.


2
Je pensais faire ça pour ce site. Définir la «co-paternité» comme les personnes qui répondent / répondent aux mêmes questions.
Sextus Empiricus

@MartijnWeterings Oui, votre réponse semble aller dans une direction très similaire à cette approche!
user257566

2

Je vois beaucoup de réponses incroyables, et je ne sais pas comment un humble classement fait par soi-même peut être reçu, mais je ne connais aucun livre complet de toutes les statistiques pour montrer le résumé de, et je pense que, comme @ mkt a brillamment commenté, une classification d'un domaine d'étude peut être utile. Voici donc ma photo:

  • statistiques descriptives
    • inférence simple
      • test d'hypothèse simple
    • traçage / visualisation des données
  • plan d'échantillonnage
    • conception expérimentale
    • conception de l'enquête
  • statistiques multivariées (non supervisées)
    • regroupement
    • analyse des composants
    • modèles de variables latentes
  • modèles linéaires (qui sont également multivariés)
    • moindres carrés ordinaires
    • modèles linéaires généralisés
      • modèle logit
    • autres modèles linéaires
      • Modèle Cox
      • régression quantile
    • inférence multivariée
      • test d'hypothèses multiples
      • test d'hypothèse ajusté
    • modèles de données structurées
      • modèles d'effets mixtes
      • modèles spatiaux
      • modèles de séries chronologiques
    • extensions non linéaires
      • modèles additifs généralisés
  • statistiques bayésiennes (en fait, des méthodes bayésiennes existent pour beaucoup de choses que j'ai déjà énumérées)
  • régression et classification non paramétriques
    • de nombreuses méthodes d'apprentissage automatique ici

Bien sûr, c'est trop simpliste, cela ne vise qu'à donner une idée directement à quelqu'un qui connaît à peine le domaine, chacun de nous ici sait sûrement qu'il y a beaucoup de méthodes entre les catégories ici, beaucoup d'autres que je n'ai pas faites. t liste parce qu'ils sont moins connus ou parce que j'ai tout simplement oublié. J'espère que vous aimez.


1

Une façon d'organiser ces informations consiste à trouver un bon livre et à consulter la table des matières. C'est un paradoxe parce que vous avez spécifiquement posé des questions sur les statistiques , alors que la plupart des textes d'introduction aux cycles supérieurs sur le sujet concernent la statistique et la théorie des probabilités ensemble. Un livre que je lis sur la régression a maintenant la table des matières suivante:

  • Inférence Frequentist
  • Inférence bayésienne
  • Test d'hypothèse et sélection de variables
  • Modèles linéaires
  • Modèles de régression générale
  • Modèles de données binaires

  • Modèles de régression générale

  • Préliminaires à la régression non paramétrique [un précurseur de ...]
  • Méthodes spline et noyau
  • Régression non paramétrique avec plusieurs prédicteurs

(Les sections restantes soutiennent les mathématiques et la théorie des probabilités)

  • Différenciation des expressions matricielles
  • Résultats de la matrice
  • Une algèbre linéaire
  • Distributions de probabilités et fonctions de génération
  • Fonctions des variables aléatoires normales
  • Quelques résultats de statistiques classiques
  • Théorie de base des grands échantillons

2
On pourrait envisager qu'un tel livre transmette une partie d' une branche d'une discipline. À moins qu'il ne prétende être une enquête encyclopédique de toutes les statistiques, cependant, ses titres de chapitre pourraient difficilement être considérés comme des branches majeures du domaine!
whuber

3
@whuber a accepté. J'ai pris soin de mentionner que le livre était sur la régression, et que je ne considère aucun livre sur le thème des "statistiques" comme étant suffisamment général ou au niveau approprié pour qu'un statisticien considère les sujets présentés comme suffisants. Cet exemple spécifique est tiré du texte de Wakefield et est un traitement remarquablement général (le test T avec estimation de variance inégale est discuté dans le contexte de la régression linéaire avec covariable binaire et estimation d'erreur robuste, par exemple).
AdamO
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.