Recap' rapide sur la vision par ordinateur : AlexNet, YOLO et boîtes noires

23/05/2023

YOLO, disent les data scientists.
You only look once because you only live once.
Attrapez un café, virez le chat du canap' et embarquez avec nous dans le monde de la vision par ordinateur.

L'origine du monde

Presque.
L'origine de la bulle actuelle, oui.
Quelle bulle ?
Celle de l'intelligence artificielle que nous vivons en ce moment, pardi.
Les performances des outils de vision par ordinateur commençaient à s'améliorer depuis quelques années.

Ca décolle vraiment en 2012.

AlexNet

Vous ne connaissez pas Alex Krizhevsky.
Comme Yann LeCun, il a travaillé sous la supervision de Geoffrey Hinton.
Le Geoffrey Hinton, britannique et canadien, prix Turing 2018, ex-Google.
Alex était en postdoc, en 2012.
Il travaillait sur les réseaux de neurones profonds (deep neural nets).
AlexNet est arrivé en tête d'une compétition de vision par ordinateur.
En écrasant la concurrence.

Quel frimeur !

Moi, mon oncle concevait des programmes champion du monde d'Othello.
Comp'oth, qu'il l'avait appelé.
C'était dans les années 1980.
Est-ce que j'en fais toute une histoire ?
Bien sur que non.

Cet AlexNet, franchement, quel frimeur !
En plus, il s'inspirait de LeNet.

LeNet

En 1998, Zidane devient une idole.
Yann LeCun est au Canada.
Il n'est pas encore le chief of AI de Meta.
Il n'est pas encore prix Turing 2018.
Il ne trolle pas sur Twitter.
Regarde-t-il les matchs ?
Non, il travaille.

Il travaille sur la reconnaissance de caractères.
Il conçoit un programme capable de lire le montant des chèques.
Ce programme est un réseau de neurones.
En 1998, LeCun lance LeNet.

A quoi ca sert ?

Les réseaux de neurones profonds sont les bons outils pour la détection et reconnaissance d'image. Ils savent aussi étiqueter les éléments d'images.

Ils sont très forts pour reconnaitre des motifs dans des palanquées d'images.
Ils montrent des performances meilleures que les humains.
Ces programmes sont donc surhumains.
Sur ces tâches.
Et uniquement sur ces tâches.

J'y vais mollo pour ne pas relancer Laurent Alexandre.

A quoi ça me sert ?

Vous avez besoin de compter les chats sur une image ?
Faites travailler un humain.
Vous avez besoin de le faire sur un million d'images ?
Faites travailler un réseau de neurones profond.

Entre les deux, c'est plus compliqué.
Je vous invite à écouter Antonio Cassili parler du microtravail dans cette video par exemple.

C'est important

Détection, identification, reconnaissance.
Beaucoup d'application du monde réel tirent profit de ces capacités.
Les acteurs du net en font un grand usage, notamment sur les réseaux sociaux.
Ils aident les médecins à analyser les clichés radios, interpreter IRM etc.
Et vous aussi, vous vous en servez tous les jours.
Ces algorithmes nous aident à prendre de jolies photos.
Et je soupçonne certaines télévisions d'embarquer ces programmes.

Ca. Juste. marche

Le domaine a évolué très rapidement.
Il existe des briques logicielle disponibles, sur étagère, prêtes à se brancher dans les applications et produits.
Les data scientists utilisent les modèles YOLO.
You only look once.

Un coup d'oeil suffit pour analyser vos images.
Ce sont des modèles pré-entraînés.
Aux performances vraiment intéressantes.
Le Nirvana de la computer vision.

Come as you are

Les outils sont récents.
La série YOLO remonte à 2016.
Une éternité dans le domaine de l'apprentissage automatique !
Aujourd'hui, les systèmes se montent aisément.
Le porteur de projet fournit ses données et détaille ses besoins.
Les techniciens de la donnée n'ont qu'à brancher les bons algorithmes.
Enfin, presque.

Come as you were

Les algorithmes sont pré-entraînés.
Ils ne partent pas de zéro.
Il faut tout de même les adapter au cas à traiter.
Il vaut mieux fournir des données d'entrainement aux algorithmes.
Des données représentatives des données cibles.

Concevoir un système de détection de pommes dans un verger ne demande pas le même travail que concevoir un système de détection de rayures sur une voiture.

Vous vous en serez douté.

As I want you to be

Les étapes d'entrainement sont passées?
Vous frétillez d'impatience à passer en production ?
Halte là, padawan.
As-tu vérifié que les performances sont bonnes ?
As-tu identifié les biais de ton modèle ?
As-tu mis au point un processus de suivi des dérives du modèle ?
As-tu un moyen de t'assurer contre les régressions ?
C'est un art difficile.

Les chats aiment se planquer

La vision par ordinateur fonctionne bien.
Très bien, même.
Il y a un hic.
Léger.

Où est codée la description d'un chat dans un réseau de neurones ? Difficile à dire. On ne comprend toujours pas pourquoi ces systèmes apprennent. Dans le monde réel, on aime bien comprendre, aussi.

Thomas

Nous ne sommes toujours pas des machines. Nos textes sont pensés et écrits par des humains. Aucun texte n’est généré. Tout soutien sera le bienvenu.