Data scientist : est-ce toujours le métier le plus sexy siècle ?

En 2012, le Harvard Business Review décrète que le métier le plus sexy du XXIème siècle est le métier de data scientist. Onze ans plus tard, la situation a bien changé. Si la data ne manque pas, la science semble absente.

Le contexte de 2012

L'article en question peut encore être lu. En 2012, le monde de l’innovation s’excite sur les données. Le BigData est à la mode. Le monde économique est bluffé par les performances des GAFA ou BigTechs. Il comprend enfin que l’exploitation systématique des données massives est à la fois possible et créatrice de valeur, si on sait les analyser, les représenter, les faire parler. Le data scientist est un rouage important dans cette mécanique, dont le rôle est mis en avant par le Harvard Business Review.

Professionnel curieux, le data scientist est issu des laboratoires de maths ou de physique. Il ne se contente pas des apparences et des premières analyses, il cherche. Et souvent, il trouve. Problème : le data scientist est rare. Donc précieux. Ou précieuse.

Quelques années plus tard, l’apprentissage automatique fait irruption avec les réseaux de neurones profonds en vedette. Les outils d’apprentissage statistique font en effet sens pour traiter certains types de données massives. Un symbole ? Après les dames (Chinook, 1994) et les échecs (IBM DeepBlue, 1997), les champions humains perdent au go face à un algorithme de deep learning (DeepMind AlphaGo, 2015). Les spécialistes sont surpris car une telle performance n’était pas anticipée à court terme. Le symbole est fort. La bulle de l'apprentissage profond s’amorce en 2016. Nous, on parle de bulle du deep ou deep bubble, sans trop savoir quel terme choisira l'histoire.

Où sont passés les data scientists ?

Parle-t-on encore d'eux ?
Beaucoup moins.

On parle plutôt d’ingénieurs des données et on s’arrache en réalité les network whisperer, ces rares spécialistes qui savent assembler les fameux réseaux de neurones profonds. Ces systèmes sont en effet devenus très complexes et difficiles à paramétrer. La révolution ChatGPT accentue encore cette dynamique d'invisibilisation. En cette fin d’année, le monde tech ne jure plus que par les LLM (large language models). Assembler de gros réseaux de neurones, est-ce encore de la science ? Ça n'est plus tout à fait clair aujourd'hui. À mes yeux, on est passé dans l'ingénierie des réseaux.

« ChatGPT is a fascinating technology that has the potential to transform the way we communicate with machines. » Andrew NG (?)

Qui maîtrise réellement les technologies à l'œuvre derrière ces prompts simplistes ? Quel commentateur ou quel technologue comprend ce qui se cache derrière les termes obscurs de foundation model, large language models et attention mechanism ? Qui comprend vraiment le deep learning ou l’apprentissage automatique ? Qui s’intéresse encore au traitement de données ? Qui se passionne pour les données ?

Nous sommes si peu. L’ensemble de cette technologie n’est comprise que par une poignée de spécialistes, data scientists ou ingénieurs IA. Quelques centaines, tout au plus.

« Any sufficiently advanced technology is indistinguishable from magic. » Arthur C. Clarke, 1962

Les data scientists ne font pas de magie. Ils analysent des données. Ils conçoivent des modèles mathématiques. Ils écrivent les programmes de traitement de données. Ils créent des outils d’aide à la décision. Leur travail est souvent invisible mais primordial.

Un data scientist ne génère pas.
Il comprend et il crée.

Comparé à l’hallucination collective engendrée par l’IA générative, j’ai bien peur que data scientist soit devenu le métier le plus ennuyeux du XXIème siècle.

Quelle erreur !


Thomas