Les humains qui programmaient l’IA… et si c’était l’inverse? – Episode 2

On se retrouve pour le deuxième et dernier épisode sur les péripéties de Léa avec l’Intelligence Artificielle. Si vous n’avez pas vu le premier, venez le lire ici.

Photo par C D-X sur Unspash

La réduction de bruit intelligente

Actuellement, Léa télétravaille (Covid-19 oblige), comme la plupart de ses proches. Elle organise régulièrement des pauses déjeuner en visio, et c’est avec ses collègues qu’elle a RDV ce midi. Entre les nouvelles du bébé de sa collègue Caro (« il fait enfin ses nuits ! »), et le nouveau vidéo projecteur de son co-équipier Antoine (« génial pour jouer à Counter Strike dans le salon »), Léa leur fait un update de son projet d’achat immobilier, et lance « ce serait hyper cool de pouvoir m’acheter un nouveau canapé pour Noël !». Elle se projette déjà – un appartement avec exposition sud-ouest, Léa sur son beau canapé pour profiter du soleil et de la vue sur les montagnes dans l’après-midi… En attendant, le bébé de Caro se met à pleurer à nouveau. Léa est bien contente d’avoir installé un logiciel pour la suppression active de bruit : on appuie sur un bouton, et hop, fini les pleurs de bébé. Caro rigole, elle dit qu’elle pense acheter un casque audio avec la même techno – ça fonctionne mieux que les bouchons d’oreilles, et un peu de calme pour les jeunes parents c’est vraiment un luxe.

Antoine ajoute qu’il utilise également un logiciel pour la suppression de bruit (entrant ou sortant) quand il joue, car « C’est trop pratique pour ne pas entendre quand les co-équipiers s’acharnent sur leur clavier », mais bon, on n’a pas tous les mêmes problèmes.

C’est encore l’intelligence artificielle qui rend possible le fonctionnement de ses technologies. Un algorithme a été entraîné à reconnaître le « bon » signal (voix humaines) et les « mauvais » signaux (bruit du clavier, klaxons dans la rue, la télé des voisins, le moteur en voiture, etc.). Pour les outils de visio-conférence, un filtre intelligent est mis au point pour ne transmettre que les « bons » signaux aux autres participants. Pour le filtrage des bruits ambiants, les casques sont dotés d’un algorithme qui détecte les « mauvais » signaux et injecte un bruit blanc à la bonne fréquence pour atténuer les bruits, sans affecter les voix ou la musique. Et quand on travaille en open-space, c’est un pur bonheur !

Le shopping très personnalisé

En milieu d’après-midi, Léa s’accorde une petite pause avec un tout petit café de rien du tout. Et un peu de shopping sur Amazon. Il faut bien finir par trouver les cadeaux de Noël pour les proches. Léa ouvre son application et là, au moment où elle s’apprête à rentrer le titre du bouquin que sa mère lui a demandé, son attention trébuche sur les articles en suggestions… Elle ne joue jamais aux jeux vidéo (bon, à part Candy Crush, mais est-ce que ça compte vraiment ?) et là, du Counter Strike, partout. Goodies, figurines, DVDs d’installation… À côté, les casques à réduction active de bruit. Léa a acheté le sien directement chez un commerçant il y a déjà quelques années, elle n’en a jamais recherché sur Amazon. Ah, et un canapé. Mais qu’est-ce qu’il se passe ?! Elle en a discuté avec ses collègues il y a à peine quelques heures. Comment Amazon le sait ??

Et oui, c’est le jeu. Le seul moyen d’entendre « Alexa, mets-moi un peu de musique » ou « Dis, Siri, quel temps il fait aujourd’hui » c’est tout simplement d’écouter en permanence. Alors autant l’assistance vocale est pratique, voire indispensable dans certains cas, comme pour les personnes mal-voyantes, mais il y a un prix à payer. C’est même probablement écrit dans les conditions générales d’utilisations que personne n’a jamais lues.

Une apparence sur mesure

Après avoir fini sa journée de travail, Léa s’accorde un petit moment sur Instagram. Oh, trop chouette, un nouveau masque de renne de Noël ! Un peu de magie festive, à défaut de pouvoir flâner au marché de Noël avec un petit vin chaud… des bois et un nez rouge feront l’affaire !

Cette photo est publiée avec le consentement de la victime

À la base, c’est un algorithme de vision par ordinateur qui permet de reconnaître et suivre en temps réel les visages et les points d’intérêt : les coins de yeux, les sourcils, le nez, la bouche. Ensuite, il est possible de « coller » sur ces points d’intérêt un masque qui va suivre le vrai visage sur la vidéo et se déformer au gré des différentes expressions.

Par ailleurs, cette même technologie, mais à un niveau de qualité différent, est parfois utilisée dans l’industrie cinématographique.  Là où avant on avait recours aux costumes ou au maquillage plus ou moins réussis, on utilise aujourd’hui les effets spéciaux numériques. C’est ce qui a permis d’utiliser la mimique de Benedict Cumberbatch pour créer un dragon très réaliste dans le film « Le Hobbit, La désolation de Smaug » (2013), ou celle de James Spader pour animer Ultron dans « Avengers : l’ère d’Ultron » (2015). De plus, il est également possible d’utiliser ces algorithmes pour redonner vie à des acteurs qui ne sont plus : l’actrice Audrey Hepburn, décédée en 1993, a été résurrectée en 2013, avec l’accord de sa famille, dans une publicité de chocolat.  Carrie Fisher (décédée en 2016) et Peter Cushing (décédé en 1994) ont joué les rôles de princesse Leia Organa et Grand Moff Tarkin respectivement dans « Star Wars, épisode IV : un nouvel espoir » (1977). En 2016, leurs personnages, qui n’ont pas vieilli d’un jour, apparaissent de nouveau sur l’écran du cinéma dans « Rogue One : A Star Wars Story » grâce à la doublure digitale : un acteur à l’apparence similaire joue le rôle, son visage recouvert de marqueurs, et ensuite l’IA peaufine ce tour de nécromancie en le rendent plus réaliste et plus plausible. Bien sûr, en regardant de près, on peut remarquer qu’il s’agit d’une illusion, mais c’est tellement plus agréable de se prendre au jeu. D’ailleurs, c’est avec Netflix et un petit épisode de Star Wars que Léa choisit de terminer sa journée.

Mais les usages de cette technologie ne sont pas toujours divertissants : du côté obscur de la doublure digitale on trouve le deep fake : avec suffisamment de données (images, vidéos, enregistrements audio) et des acteurs bien choisis, il est possible de créer des nouvelles séquences vidéo ou audio où l’on peut faire dire absolument n’importe quoi à absolument n’importe qui. Un exemple très parlant mets en scène le 44ème président des Etats-Unis, Barack Obama. Mais alors, comment fait-on pour savoir si ce qu’on voit sur une vidéo est digne de confiance ? En voilà une bonne question. Une bonne question à un million qui plus est : le prize pool total d’un challenge de détection de deep fake sur Kaggle valait $ 1,000,000. Et même avec le meilleur des algorithmes de détection de deep fake, ça ne fonctionne pas encore à tous les coups. De plus que, une fois qu’on a un algorithme de détection, on peut entraîner des algorithmes pour le tromper et créer des algorithmes de création de deep fakes encore plus plausibles… Un serpent qui se mord la queue. Bref, probablement, le mieux c’est de cultiver ses aptitudes d’analyse et son sens critique – ça ne peut que nous faire du bien.


Il est maintenant l’heure de dormir, et Léa, après cette journée bien remplie, va faire de jolis rêves.