Drew Conway a publié le diagramme de Data Science Venn , avec lequel je suis entièrement d'accord:
D'une part, vous devriez vraiment lire son article. D'un autre côté, je peux offrir ma propre expérience: mon expertise en la matière (que j'aime mieux en tant que terme que "expertise substantielle", parce que vous devriez vraiment aussi avoir une "expertise substantielle" en mathématiques / statistiques et piratage) est dans le commerce de détail, mes mathématiques / statistiques sont des prévisions et des statistiques inférentielles, et mes compétences en piratage se trouvent dans R.
De ce point de vue, je peux parler et comprendre les détaillants, et quelqu'un qui n'a pas au moins une connaissance passagère de ce domaine devra faire face à une courbe d'apprentissage abrupte dans un projet avec des détaillants. En parallèle, je fais des statistiques en psychologie, et c'est exactement la même chose là-bas. Et même avec une certaine connaissance de la partie piratage / mathématiques / statistiques du diagramme, j'aurais du mal à me familiariser, disons, avec le pointage de crédit ou un autre nouveau domaine.
Une fois que vous avez une certaine quantité de mathématiques / statistiques et de compétences de piratage, il est beaucoup mieux d'acquérir une mise à la terre dans un ou plusieurs sujets que d'ajouter un autre langage de programmation à vos compétences de piratage, ou encoreun autre algorithme d'apprentissage automatique à votre portefeuille de mathématiques / statistiques. Après tout, une fois que vous avez une base solide en mathématiques / statistiques / piratage, vous pouvez, si besoin est, apprendre ces nouveaux outils sur le Web ou dans des manuels scolaires dans une période de temps relativement courte. Mais l'expertise en la matière, d'autre part, vous ne pourrez probablement pas apprendre à partir de zéro si vous partez de zéro. Et les clients préfèrent travailler avec un scientifique des données A qui comprend leur domaine spécifique qu'avec un autre scientifique des données B qui doit d'abord apprendre les bases - même si B est meilleur en mathématiques / statistiques / piratage.
Bien sûr, tout cela signifiera également que vous ne deviendrez jamais un expert dans l' un des trois domaines. Mais ça va, parce que vous êtes un data scientist, pas un programmeur ou un statisticien ou un expert en la matière. Il y aura toujours des gens dans les trois cercles distincts dont vous pourrez apprendre. Ce qui fait partie de ce que j'aime dans la science des données.
EDIT: Un peu de temps et quelques réflexions plus tard, je voudrais mettre à jour ce post avec une nouvelle version du diagramme. Je pense toujours que les compétences de piratage, les connaissances en mathématiques et statistiques et l'expertise substantielle (abrégé en "Programmation", "Statistiques" et "Affaires" pour plus de lisibilité) sont importantes ... mais je pense que le rôle de la communication est également important. Toutes les informations que vous tirez en tirant parti de votre piratage, de vos statistiques et de votre expertise commerciale ne feront aucune différence, à moins que vous ne puissiez les communiquer à des personnes qui ne possèdent peut-être pas ce mélange unique de connaissances. Vous devrez peut-être expliquer vos connaissances statistiques à un chef d'entreprise qui doit être convaincu de dépenser de l'argent ou de modifier les processus. Ou à un programmeur qui ne pense pas statistiquement.
Voici donc le nouveau diagramme de Venn de la science des données, qui inclut également la communication comme ingrédient indispensable. J'ai étiqueté les zones de manière à garantir un maximum de flammes, tout en étant facile à retenir.
Commentez loin.
Code R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()