Le logiciel rendra-t-il finalement les statisticiens obsolètes? Que fait-on qui ne peut pas être programmé dans un ordinateur?
Le logiciel rendra-t-il finalement les statisticiens obsolètes? Que fait-on qui ne peut pas être programmé dans un ordinateur?
Réponses:
@Adam, si vous pensez aux chercheurs en statistique de manière analogue à ceux d'autres domaines - des gens qui s'appuient sur la méthodologie et les connaissances existantes - alors il pourrait être plus clair que la réponse à votre première question est «non».
Les statisticiens qui gagnent leur vie en appliquant simplement des progiciels en conserve pourraient très probablement être remplacés par des ordinateurs à chaque étape, sauf en écrivant la section de discussion d'un document où les résultats doivent être interprétés. Donc, dans ce sens, oui - il pourrait être automatisé (même s'il devrait s'agir d'un logiciel compliqué doté d'un enfer d'un processeur de langage naturel).
Cependant, comme la plupart des chercheurs le découvrent finalement, les routines «en conserve» que les gens utilisent souvent sont assez limitées et doivent être modifiées (ou de nouvelles méthodes doivent être entièrement développées) pour répondre à des questions de recherche spécialisées - c'est là que l'aspect humain des statistiques est indispensable . Ou, un chercheur doit simplement se contenter d'une question de recherche quelque peu différente, mais connexe, à laquelle on peut répondre en utilisant des méthodes classiques.
La plupart des statisticiens que je connais travaillent dans des emplois de recherche (par exemple, professeurs, chercheurs) où leur rôle principal est de développer une nouvelle méthodologie. Si ce processus pouvait être automatisé, ce qui signifie qu'un ordinateur peut formuler et lancer de nouvelles méthodes utiles, alors je crains que les chercheurs dans tous les domaines ne soient obsolètes.
Les ordinateurs ne rendront les statisticiens obsolètes que lorsque l'IA forte rendra les humains dans leur ensemble obsolètes.
La question me rappelle la question: "S'il existe toutes ces méthodes statistiques robustes, pourquoi les gens utilisent-ils encore d'autres méthodes?" Une partie de la réponse est l'habitude et la formation, mais la plupart est que la question est naïve: "robuste" ne signifie pas "vous n'avez pas à penser et à comprendre ce que vous faites", comme l'indique la question.
Je veux dire, vous pouvez télécharger le package de statistiques R aujourd'hui et faire n'importe quelle technique statistique de base à la tombée de la nuit. Vous pouvez ensuite télécharger quelques packages et commencer à utiliser des méthodes si ésotériques que la plupart d'entre nous n'en ont même pas entendu parler. La question est: obtiendriez-vous des réponses raisonnables? La réponse est probablement non.
Les algorithmes sont automatisés, mais vous devez toujours faire de nombreux appels de jugement tout au long du chemin d'investigation: du plan d'attaque au jugement final de savoir si les résultats ont réellement un sens. Pour en arriver là, vous parlez vraiment d'ordinateurs de type Star-Trek où vous pouvez dire: "Ordinateur, dis-moi ...", à ce moment-là, presque toutes les vocations humaines sont obsolètes.
Que peut faire un statisticien qu'un ordinateur ne peut pas faire? Écrivez le programme d'origine par lequel ils sont remplacés.
Au-delà de cette réponse quelque peu idiote, la racine de la question est d'ignorer la science réelle de la statistique au profit de sa mécanique, et d'écarter entièrement le rôle du processus créatif dans l'analyse statistique. C'est, pour utiliser l'exemple de Peter Flom, comme dire que les voitures sont construites à l'aide de rivets et de soudures, donc il n'y a aucune raison pour que la nouvelle Mustang ne puisse pas être conçue par des robots de rivetage et de soudage.
Une grande partie du travail de statistique implique une expertise en la matière, des appels au jugement et de la créativité. Une analyse "en conserve" exécutée à partir d'un algorithme ne vous apportera souvent pas la meilleure réponse, et il existe une myriade d'exemples documentés où l'utilisation de méthodes automatisées vous donne en fait la mauvaise réponse - ou du moins pas la réponse que vous pensez obtenir. L'utilisation de procédures de sélection de variables basées sur des valeurs p par étapes et une analyse basée sur des quantiles purement définis numériquement sont deux que je connais le mieux, mais je suis sûr que vous pouvez en trouver beaucoup d'autres.
Même si tout cela était encore en quelque sorte automatisé, il reste à interpréter les résultats. Le travail du statisticien (ou du scientifique statistiquement incliné) ne se fait pas lorsque vous obtenez un coefficient de régression ou une valeur p. Qu'est-ce que cela signifie ? Quelles sont les mises en garde? Qu'est-ce que cela représente dans le contexte de ce qui a précédé?
Enfin, vous avez le développement de nouvelles méthodes. Les statistiques ne sont pas simplement quelque chose qui a été présenté il y a longtemps par des personnes dont nous reconnaissons les noms - Fisher, Cox, etc. C'est un domaine en évolution et vous ne pouvez pas programmer une nouvelle méthode dans un ordinateur tant qu'une personne n'a pas développé la méthode elle-même.
Une autre façon d'interpréter cette question pourrait être: "l'augmentation rapide des techniques statistiques automatisées au cours des dernières années a-t-elle correspondu à une baisse de la demande d'emplois pour les statisticiens et les analystes de données dédiés?"
Nous pouvons répondre à cette question en regardant les données
Données gracieuseté de Indeed.com & Revolutions Blog
Je ne suis pas entièrement d'accord avec la prémisse de la question, c'est-à-dire que je pense qu'il n'y a aucun moyen par lequel les ordinateurs pourraient jamais espérer remplacer les statisticiens, mais pour donner un exemple concret de la raison pour laquelle je pense que:
Le travail que les statisticiens font avec les scientifiques, en particulier dans la conception et l'interprétation des expériences, nécessite non seulement un esprit humain, mais même un penchant philosophique qu'il est inconcevable que les ordinateurs puissent jamais montrer.
À moins que nous ne nous retrouvions dans une sorte de situation de type Skynet, bien sûr, auquel cas je pense que tous les paris sont probablement désactivés en ce qui concerne l'avenir de toute l'humanité, sans parler des statisticiens, :-)
La question suggère une vision naïve d'un statisticien - qu'il s'agit de vérifier si ap <0,05 et de rapporter des nombres et des graphiques standard. Si c'est ce que vous entendez par statisticien, vous avez raison dans votre implication qu'une grande partie pourrait être entièrement automatisée. Mais ce n'est pas ce que veut dire un statisticien.
Cependant, définissez votre terme statisticien et vous obtiendrez peut-être de meilleures réponses.
Charger un package de statistiques sur votre ordinateur ne fait pas non plus de vous un statisticien, car acheter une voiture vous permet de conduire.
Même si le statisticien applique simplement des routines «en conserve», il y a beaucoup de questions.
etc.
Mais le travail commence bien avant la mise sous tension de l'ordinateur et se termine longtemps après la désactivation du progiciel statistique.
Avant: que veut faire le client? C'est souvent beaucoup de travail! De quelles données dispose le client? Oy vey! Les variables sont étiquetées V1 à V828171 Quelles sont lesquelles? Quel est l'état de la littérature? Qu'attend le client? À quel point cela devrait-il être technique?
Après: que signifient les résultats ? (et pas seulement "cela signifie que la régression est significative") Comment expliquer les résultats au client? Quelles autres questions les résultats soulèvent-ils?
Je pense que cela prendra beaucoup de temps avant que les ordinateurs ne puissent le faire.
Les études universitaires qui examinent la probabilité d'automatisation de différentes professions ou tâches ne pensent pas que les statisticiens seront bientôt remplacés par les ordinateurs. Voir par exemple l' étude controversée Frey & Osborne (2013) qui classe les professions en fonction de leur probabilité d'informatisation, les statisticiens sont classés en bas 213 sur 702 avec une probabilité de 22% (voir tableau en annexe). Si vous êtes intéressé, consultez également l' article Slate ici .
Arntz et al. (2016) ( ici un article de The Economist) se penchent sur les tâches plutôt que sur les professions pour l'Union européenne et arrivent à une conclusion similaire: Faire des "mathématiques ou des statistiques complexes" est statistiquement significativement négativement lié à l'automatisation du travail (voir tableau 3).
Mais une certaine prudence est de mise, les universitaires et / ou les économistes n'ont pas toujours été très bons pour prédire l'avenir (le lauréat du prix Nobel, Robert Lucas par exemple, a conclu en 2003, quelques années avant les crises financières, que le "problème central de la prévention de la dépression a été résolu, à toutes fins pratiques, et a en fait été résolu depuis de nombreuses décennies. " ). Les deux études semblent être des documents de travail, qui sont largement discutés mais n'ont pas été publiés dans des revues à comité de lecture standard.
En ce qui concerne le débat académique, ici vous pouvez trouver un article aperçu de l'état de la recherche sur l' automatisation.