Un glossaire : la data

En ces temps de bulle, un glossaire est absolument nécessaire. Dans le but d'éviter tant que faire se peut de raconter n'importe quoi, on vous parle ici de data.

Des données, donc

Mot d'origine anglaise, pluriel de datum, employé plutôt au pluriel. On peut parler de a piece of data. Le mot data fait aujourd'hui référence à un amoncellement de données. Ces données peuvent être des chiffres, des mots, des caractères, des sons, des images, ou des objets plus étranges. Isolée, une donnée peut être regardée comme signifiante (ex : il fait 23° à Aix) ou insignifiante (ex : une voiture est passée devant ce radar à 13h27:87.122319645), auquel cas on se référera volontiers aux autres données qui l'accompagnent qui, ensemble, forme le contexte et permettent de reconstruire une réalité (ex : l'ensemble des voitures qui passent devant le radar sur un mois).

Une donnée est donc un élément brut, sans contexte ni interprétation. Ainsi, une donnée en soi n’a aucun sens. Lorsqu’elle est interprétée dans un contexte, c’est-à-dire décodée, une donnée devient une information. Une information est la lecture humaine d’une donnée. La façon dont l’information est codée en donnée est son format. Par exemple, 1110000 peut représenter le prix d’une villa en euros, le nombre de globules rouges par mm3 d’un patient ou la lettre "p" dans le code ASCII.

Une forme d'accumulation

Historiquement, la science déductive est basée entièrement sur l'accumulation d'informations et leur interprétation dans le cadre d'un modèle, permettant de résumer efficacement et intelligemment cet ensemble d'informations. L’homme a toujours eu tendance à recueillir des informations ; puis à les accumuler et construire des choses avec. Ce qui nous fait clairement un autre point commun avec les castors.

L'accumulation de données permet, par exemple, de trouver la loi de la gravité en mesurant les temps de chute des pommes. Ça marche aussi avec des feuilles, mais c'est plus dur car il faut prendre en compte la forme de la feuille et la résistance de l’air.

Une donnée est issue d'un capteur, appartenant au monde physique ou informatique ; son stockage ainsi que son traitement se sont banalisés. J'ai souvenir d'un temps où les données étaient beaucoup moins sexy, mettons jusqu'en 2005 dans mon histoire personnelle. C'était avant le début de ma thèse en physique des plasmas. Les données ont ensuite envahi mon quotidien, et leur interprétation est devenu ma raison de vivre. Patience, abnégation, architecture : il faut parfois savoir affronter un morne et formateur quotidien, que ne renierait pas un castor augmenté.

Le grand public a commencé s'intéresser au sujet autour des années 2010, avec la vague BigData.

Les données sont quelque chose que l'on cache habituellement, dans des bases de données, massives ou non, stockées dans des disques durs hébergés localement ou dont la gestion est confiée à des exploitants (IaaS : cf OVH, Cloudwatt, Gandi etc).

Telles quelles, les données ne servent à rien

Sinon à encombrer nos disques ou gonfler notre facture d'électricité. Elles ne sont utiles que si on les travaille, si on les fait parler, si on les valorise. Par exemple, les mots seuls n'ont pas vraiment d'intérêt, ce qui importe c'est l'assemblage qu'on peut en faire. Pour les données, c'est exactement la même chose, il faut fournir un effort pour en tirer quelque chose.

Et tout d'abord y accéder. C'est un peu confus, on va devoir faire une liste avec des points, comme les grande personnes.

  1. Physiquement, donc avoir réglé les problèmes de confidentialité et de sécurité. Ex : signer des papiers, se connecter sur les serveurs à distance ou localement, accéder aux disques durs.

  2. Informatiquement, donc comprendre le format de stockage, le schéma de données, les relations entre les informations. Ex : communiquer avec le moteur de base de données, disposer des outils techniques d'interfaçage, espérer que d'autres ont fourni des moyens techniques sous GNU/Linux, payer les licences nécessaires

  3. Intellectuellement, donc xomprendre ce qu'elles représentent, ce qui est mesuré. Ex : comment sont stockées les dates : "Sat, 24 Nov 2018 09:21:42 -0800", "2018-11-24 09:21:42", "Saturday" ou encore 1543047702 décrivent à peu près la même réalité.

  4. Contextuellement, donc comprendre le contexte de la mesure (ou acquisition), la précision, les limites. Ex : si on mesure une température, il sera intéressant de savoir que le capteur ne peut rien mesurer en dessous de -10 et au dessus de +45.

  5. ETL, pour extract, transform, load. Manipulation, assemblage, transformation. Ex : transformer ces tables ou ces colonnes pour les regarder avec un bon angle, ou d'une façon pratique

  6. Visualisation, donc représenter, visualisser, explorer. Ex : dessiner ou tracer ces informations, les représenter visuellement pour s'en faire une idée.

  7. Traitement, donc l'analyse des données. Ex : maths, statistiques, et apprentissage automatique ou IA si on veut appâter le chaland.

Les données servent à mieux comprendre les phénomènes qu'on étudie

La turbulence fluide, le comportement des clients, la détection des défauts sur une chaîne de production, la prédiction de variations boursières (non), etc. On peut tout imaginer, la seule limite est celle des données : quantité, qualité, précision. Nous avons l'habitude de dire qu'il y a trois grandes classes de traitement : le classement, la prévision, la détection. Le plus simple est de partir du besoin métier (« qu'espérez-vous tirer de ces informations ? » et « que pensez-vous qu'on puisse construire à partir de ces données ? ») puis observer les données et identifier une réponse technique adéquate. C'est le quotidien du data analyst, ou data scientist.

Au final, la technique doit rester de la technique : un truc de technicien, au service d’un besoin métier, qui doit éviter l’écueil de la culture hors-sol. C'est ainsi qu'on voit les choses.

Tu te compares à Google, sérieusement ?

En dehors de ce cadre technique, la data sert à faire parler, à faire rêver les gens, à dépenser beaucoup d’argent pour des technos ou des activités pas forcément rentables, à se faire mousser dans les media ou les salons.

L'exploitation de la donnée par des algorithmes d'intelligence artificielle est le moteur de la bulle IA que nous vivons depuis 2016.


Thomas