Une plongée de dix ans dans les données : BigData, data, business intelligence, IA etc
Je le vois, ami lecteur. Tu es submergé de bobards, exagérations et annonces
fracassantes. À en croire les communicants et commerciaux, ChatGPT
, DeepSeek
et les services Mistral
ont ringardisé le développement informatique,
l'analyse de données voire l'intelligence. Tu te sens jugé. Je te comprends.
Ce billet ressemble à un inventaire que n'aurait pas renié le poète. J'affirme que rien n'est inventé. Quel serait l'intérêt ? Les projets se divisent en deux catégories : soit nous les avons réalisés avec nos propres doigts, soit nous avons dirigé l'équipe de data scientists qui les a menés à bien. Tout est réel.
Le résumé obligatoire
Nous sommes spécialisés dans la stratégie data et la création d'outils IA ayant un réel impact dans divers secteurs. Nous concevons des systèmes de détection d'anomalies, nous optimisons des modèles d'apprentissage automatique et développons des algorithmes pour analyser et classifier les données de manière plus efficace. Notre objectif est d'aider les entreprises à prendre de meilleures décisions, améliorer leurs opérations et saisir de nouvelles opportunités. Nous nous concentrons principalement sur la santé, les fintech et l'industrie, en utilisant l'analytique avancée et l'IA pour résoudre des problèmes complexes et favoriser l'innovation.
ChatGPT
Les modèles de langage fonctionnent bien, même si leur style est systématiquement plat comme un trottoir de rue. Le idées de tout le monde y défilent dans leur costume ordinaire, sans exciter d'émotion, de rire ou de rêverie. Flaubert avait vu juste.
Boooooring
J'aime vraiment l'informatique et la science des données. Antoine aussi. C'est notre chemin personnel, notre inclinaison. Une forme de passion. Un état d'esprit. Des valeurs, même.
Rappelons qu'à nos yeux, ces domaines et celui de l'IA n'ont absolument rien à
voir avec l'infâme mode qui consiste à prompter un LLM
. C'est ce que répètent
à l'envi de trop nombreux crétins sur LinkedIn
, en se sèguant constamment sur
les technos hypes du moment. Chacun sa vision des choses. Eux, ils creusent. Nous, on bosse sérieusement.
L'inventaire
Les projets présentés ici ont été sélectionnés. Il y a plus de 80, voire 100 si on compte les petits projets annexes que j'ai oublié d'enregistrer. Nous les avons groupés par date, il fallait bien une clé dans le groupby.
Allons-y : les projets 2024
Conception et mise en œuvre de programmes de détection d'anomalies pour une startup, axés sur la détection des déchets dans les environnements urbains et naturels. Développement de modèles d'apprentissage profond adaptés à de petits jeux de données issus d'images de drones et de caméras fixes. Amélioration du suivi environnemental grâce à un pilotage par la data.
Direction de la stratégie data et IA (CTO, CDO) pour une startup, conception a priori d'une base de données scorée sur les connaissances scientifiques et médicales en immunothérapie. Cette startup est un membre fondateur du Marseille Immunology Biocluster (MIB), projet national qui a sécurisé 97 millions d'euros de financement via France 2030.
PROJETS 2023
Développement d'un outil d'apprentissage statistique pour l'analyse de données d'études cliniques dans une entreprise biotech médicale. Amélioration de l'efficacité du traitement des données et identification de pistes utiles pour la recherche médicale et la prise de décision.
Identification des paramètres clés influençant les défauts sur une ligne de production dans l'industrie du tissage. Utilisation de techniques de science des données pour optimiser le contrôle qualité et réduire les déchets de fabrication.
Soutien à l'équipe interne de données d'une entreprise R&D en biotech. Co-conception d'outils numériques de visualisation et d'analyse des données, dans le cadre de l'amélioration des protocoles de recherche.
Réalisation d'un audit des algorithmes d'apprentissage automatique pour la détection des dommages sur les véhicules de location. Évaluation des performances des modèles et recommandations sur l'architecture logicielle et l'optimisation technique.
Réalisation d'une étude statistique sur la corrélation entre les biomarqueurs et la fonction auditive dans un modèle animal pour une entreprise de recherche biotech. Les résultats clés ont vocation à être intégré dans les futures études.
PROJETS 2022
Fin 2022, ChatGPT
venait d'être lancé et les LLMs
faisaient irruption. Rédaction d'une note technique sur ces technologies pour des cadres dirigeants d'une entreprise de transport maritime, avec perspectives sur l'adoption interne de ces outils et les implications stratégiques anticipées. Ils ont décidé de ne pas nous payer, maintenant je les déteste.
Développement d'une méthode de détection automatique de chute d'enfant dans les piscines pour une TPE. Conception et prototypage d'un outil d'aide à la décision pour renforcer la prévention des accidents. Ça fonctionnait assez bien en laboratoire, mais le TRL était un peu faible pour le passage en production.
Formation d'une équipe de 15 statisticiens en mathématiques appliquées et apprentissage automatique pour une entreprise mondiale de données de santé. Renforcement des compétences internes grâce à des apprentissages pratiques et des applications réelles.
Réalisation d'une étude de recherche dans le marketing numérique. Évaluation de potentielles acquisitions externes en science des données, analyses stratégiques pour les décisions d'investissement.
Développement d'un algorithme pour la classification automatique des déclarations d'intérêts (textes courts) pour une agence gouvernementale (HATVP). Conception, prototypage, mise en œuvre et déploiement du système en production. Nous envisagerons aujourd'hui d'inclure les sorties d'un LLM
comme autre critère. Notre premier projet propulsé par Streamlit.
Conception et déploiement d'un outil de détection d'anomalies pour un partenaire spécialisé dans les moteurs de bases de données. Prédiction de l'utilisation de stockage et du CPU sur les serveurs, améliorant le suivi de l'infrastructure informatique et la prise de décision.
Réalisation d'une étude de faisabilité pour une entreprise spécialisée dans l'optimisation de la livraison dernier kilomètre selon des critères écologiques. Exploration des approches de recherche opérationnelle pour une efficacité améliorée. L'équipe dirigeante a découvert l'existence du concept de classe de complexité algorithmique (ex: problèmes NP-difficiles) lors de cette étude. Je pense que ça les a vexé.
Agrégation et nettoyage de bases de données pour une coopérative agricole et un fonds d'investissement. Amélioration de la qualité des données pour les applications d'informatique décisionnelle.
Conception d'une stratégie d'exploration de données sur une base d'environ 10 millions d'articles scientifiques pour un projet de média dans le domaine de l'informatique médicale. Extraction d'informations pour améliorer l'accessibilité de la recherche et la découverte de connaissances. Le prototypage a été nécessairement limité.
PROJETS 2021
Mise à jour et réentraînement d'un moteur de classification automatique pour l'agence gouvernementale HATVP, améliorant la précision et l'efficacité du traitement des déclarations d'intérêts.
Développement d'un système de classification des transactions bancaires pour une fintech parisienne. Amélioration de l'automatisation des processus et de la conformité des opérations financières. On les aime bien.
Réalisation d'une évaluation des risques internes pour une grande entreprises avec multiples filiales. Contribution au plan d'audit 2022 avec des perspectives basées sur les données. Ce projet consistait essentiellement à relancer le programme de 2021 avec des données mises à jour.
Audit technique d'un moteur d'apprentissage automatique, évaluation des performances des modèles et de leur fiabilité.
Calcul des métriques de performance d'un moteur de recommandation, optimisation des algorithmes de personnalisation. Ce travail aurait pu être fait en interne.
Construction d'une base de connaissances et d'un moteur de recommandation pour la sélection de formations et les parcours professionnels dans le système éducatif français. Gros travail d'agrégation des données officielles (Parcoursup, ROME, ONISEP), plus ou moins structurées.
Mise en œuvre d'algorithmes de détection de non-conformité dans les procédures d'audit interne pour une entreprise de transport maritime mondial, afin de renforcer la gouvernance et la surveillance réglementaire. Je pourrais en dire beaucoup plus, mais malheureusement j'ai dû signer un accord de confidentialité avec mon propre sang.
Conception et mise en œuvre de routines de traitement des données (statistiques, ETL) pour une autre fintech, rationalisant les flux de données et les capacités analytiques.
PROJETS 2020
Évaluation des risques internes pour une grande entreprise avec de nombreuses filiales, contribuant aux plans d'audit 2021 et 2020 dans le but d'améliorer la gouvernance. Comme tu le devines, ami lecteur, nous avons traité beaucoup de fichiers xls. Présentation en COMEX devant le board exécutif et en conseil d'administration. Un autre monde.
Conception d'un moteur de recommandation d'articles scientifiques, afin de créer une base de connaissances structurée d'articles, d'auteurs et de laboratoires de recherche.
Développement d'un système expert à intégrer comme brique dans un système existant, à partir de l'exploitation de la base de données publique SIRENE afin d'améliorer la prise de décision.
PROJETS 2019
Développement d'un outil de calcul des prix pour une entreprise de e-commerce. Intégration d'un modèle de ventes adapté à 15 plate-formes en ligne pour optimiser la stratégie de tarification. Cet outil était un parfait candidat pour Streamlit, techno qui ne figurait pas encore dans notre boîte à outil à l'époque.
Exploration de données et classification automatique pour IRSN, en utilisant une analyse d'image basée sur des ondelettes, sur des jeux de données réduits. C'était amusant de monter un projet d'apprentissage automatique sur des données historiques dans le cadre d'essais sur du combustible nucléaire.
Identification des défaillances mécaniques dans les données brutes issues de bancs d'essai d'hélicoptères, à l'aide de la détection de signatures en fréquence (inconnues). Encore une fois, je pourrais en dire beaucoup plus, mais malheureusement j'ai dû signer une accord de confidentialité avec le sang de mes enfants. La confiance règne.
Conception d'un système automatisé de traitement des déclarations fiscales pour une banque régionale, mettant en œuvre des règles de correspondance client-produit et de recommandation. C'était en réalité assez facile, j'espère qu'ils ne liront pas ce billet.
Mission de cadrage data/analytics avec un boss de fin de niveau de l'audit et des risques d'une grande entreprise. Définition des priorités clés de gestion des risques. Notre première mission dans la plus haute tour de Marseille, et sans costume (pour nous).
Développement d'un outil de classification automatique des déclarations des lobbyistes pour une agence gouvernementale de transparence, à l'aide d'une rapide modélisation statistique et de traitement de données sémantiques.
Conception, prototypage et déploiement d'un moteur de classification basé sur l'apprentissage automatique pour les transactions bancaires, afin d'améliorer les performances de catégorisation.
PROJETS 2018
Audit technique de l'équipe data d'une société parisienne : bonnes pratique, code, performances des modèles, stratégie, collaboration. « Mais que diable fait notre équipe de data scientists ? » était la question centrale de cette mission. Maintenant, ils savent.
Coaching opérationnel en data pour des dirigeants de la RATP, renforçant leur compréhension et application des stratégies basées sur les données. J'ai dirigé de nombreuses interviews à StationF à Paris, donc j'ai beaucoup aimé cette mission.
Cours de MBA sur la science des données et l'IA à ESG Paris, couvrant trois niveaux d'expertise différents. Ils ne comprenaient rien en informatique ni en data. J'ai arrêté de me lever à 5h du mat' pour aller faire ces cours, trop loin.
Mission de stratégie commerciale et technique pour une grande entreprise de sondages d'opinion, axée sur la monétisation et l'optimisation des actifs internes de données. À l'époque, ils étaient complètement perdus. Depuis, ils ont subi un plan de redressement. Une occasion ratée, malheureusement, car il y avait beaucoup à faire.
Ateliers d'idéation pour BNF Partenariat, sur les stratégies de valorisation de la base documentaire de Retronews grâce au traitement de données.
Mission de conseil pour un franchiseur PME, dans le but d'optimiser les opérations commerciales. On a fait du web et de la traduction.
Audit stratégique de la feuille de route data/IA pour une startup en hyper-croissance. Je leur ai dit qu'ils ne pouvaient pas trop compter sur le travail humain (human in the loop) s'ils voulaient vraiment passer à l'échelle - le PDG n'était pas convaincu, car le discours ambiant n'était pas celui que je lui ai tenu. J'espère qu'il a changé d'avis.
Présentation d'une conférence sur la technologie blockchain pour une mutuelle d'assurance, devant un public de 100 professionnels à Paris. Beaucoup de plaisir.
PROJETS 2017
Coaching opérationnel en data et analytics pour des dirigeants bancaires. Le but était de les aider à intégrer des stratégies basées sur les données dans leurs processus de prise de décision. Sympa et humainement intéressant.
Développement et déploiement d'un système de scraping web et d'extraction de mots-clés pour un acteur de l'information des entreprises, sur 1,8 million de sites web. L'idée était de détecter et extraire des informations pertinentes. C'était peut-être illégal mais très formateur.
Soutien technique et méthodologique à un analyste de données, pour améliorer les processus analytiques et la gestion des données.
Rédaction d'un projet de recherche pour une startup logistique innovante, incluant la conception algorithmique pour une meilleure efficacité opérationnelle. Et revoici la NP-difficulté et les problématiques de recherche opérationnelle.
Formation en data/BigData pour des dirigeants du groupe Stellantis. Nous étions souvent sollicité pour faire de l'ouverture de chakras à cette époque.
Conception d'un outil d'aide à la décision pour l'Agence de l'Environnement et de la Maîtrise de l'Énergie (ADEME). Classification et visualisation des typologies de bâtiments à grande échelle à travers la France. Beaucoup de plaisir, beaucoup de données, le projet était vraiment sympa, avec des problématiques de visualisation en grande dimension.
PROJETS 2016
Conseil stratégique en data pour les dirigeants d'une entreprise de commerce de détail, dans le but de les aider à définir des initiatives clés pour exploiter les données dans les opérations commerciales. Chakras, toujours.
Conduite du recrutement d'un analyste de données pour une entreprise fintech, évaluation des compétences techniques des candidats.
Construction et gestion d'une équipe de data science pour un pure player. Structuration des processus de travail et de la méthodologie pour les projets analytiques.
Exploration de données de la base SIRENE pour une ETI, extraction d'informations commerciales pertinentes.
Développement de modèles de détection des valeurs aberrantes pour l'Agence de l'Environnement et de la Maîtrise de l'Énergie (ADEME), à partir de l'analyse de données sur les millions de bâtiments français. À un moment, j'ai lancé des groupby sur l'ensemble des portes et fenếtres de France.
Conception d'un système de classification automatique des transactions comptables avec des méthodes d'apprentissage supervisé. Conception et implémentation d'une preuve de concept, en 2016. Ça marchait bien, le début d'une longue collaboration.
Intervention au Hello!World 2016
pour Orange Business Services à Lisbonne, devant un public de 300 collaborateurs. Beaucoup de stress. Heureusement que j'avais appris l'anglais lors de mon post-doc à Oxford.
Rédaction de plans d'analyse statistique pour une biotech. Analyse des données pharmaceutiques et vétérinaires pour des recherches internes et des analyses de marché.
Développement d'outils d'extraction de mots-clés et de traitement des données non structurées. Conception, implémentation, production et run sur 100000 sites web. Depuis, je me suis converti à l'approche devops.
PROJETS 2015
Notre première année en tant qu'indépendants ! Nous avons commencé à travailler pour des entreprises en tant que data scientists lorsque les gens se sont enthousiasmés pour le Big Data
et le noSQL
.
Analyse de l'attrition des clients pour une fintech, identification des modèles comportementaux grâce à une analyse statistique et sémantique des retours clients afin d'améliorer les stratégies de fidélisation. De la vraie informatique décisionnelle : nous avons conçu et écrit des programmes qui reliaient directement les données brutes et le dirigeant.
Évaluation technique de candidats pour un poste de data scientist dans une startup parisienne, évaluation de leurs compétences et expertise en apprentissage automatique ainsi qu'en analyse des données. Le début de la vague des data scientists.
Conception et développement d'un outil de segmentation commerciale pour une fintech, à partir de données bancaires de 300000 clients afin d'améliorer les stratégies marketing.
Automatisation du traitement de fichiers Excel pour une PME industrielle, écriture de scripts VBA et Python pour rationaliser la gestion des données et améliorer l'efficacité. On ne le fera plus jamais, je hais Microsoft et VBA.
Avez-vous vraiment fait tout cela ?
Bien plus, en réalité.
Merci à ChatGPT et DeepL, sans qui je n'aurais jamais eu le courage d'écrire ce post, même en français. Il reste des typos et formulations un peu lourdes, je vais les corriger au fur et à mesure.