Conférence ECCV 2020 : ma première expérience de conférence virtuelle !

Le KAIZEN LAB est composé d’experts qui travaillent sur des sujets de pointe. Afin d’être performants et innovants, il est essentiel d’être attentifs aux dernières avancées de la recherche. Cela est rendu possible en participant notamment aux conférences scientifiques, telles que l’ECCV. Après avoir assisté à la session 2020 de cette conférence, voici un retour d’expérience sur cette édition un peu spéciale.

ECCV – Kézako ?

ECCV comme European Conference on Computer Vision. Il s’agit d’une conférence de haute qualité qui réunit les chercheurs et les industriels du monde entier qui s’intéressent à la thématique de la vision par ordinateur. Elle se déroule en Europe tous les deux ans depuis 1990, en opposition de phase avec ICCV (International Conference on Computer Vision), qui est aussi biennale et dont les éditions ont une portée géographique plus vaste, comme son nom l’indique.

Une édition originale

Comment l’ECCV s’est adapté à l’actualité

Hall principal de la conférence virtuelle (copyright ECCV2020)

La pandémie actuelle a, bien sûr, impacté le déroulement de la conférence. Initialement prévue à Glasgow, au Royaume-Uni, la conférence a finalement adopté un format entièrement virtuel. Une plateforme en ligne a été créée pour l’évènement : on y trouvait un « auditorium » pour assister aux sessions orales, des espaces pour suivre les tables rondes (« workshops ») et les tutoriels, ainsi qu’un espace de networking pour suivre les démonstrations, créer des chats et discuter avec d’autres participants, et passer voir les stands virtuels des sponsors. Les sessions de présentation des posters étaient organisées par Zoom.

Formats, fréquence : une organisation inédite

Pour chaque sujet présenté à cette édition, une page dédiée regroupait l’article scientifique, l’abstract, ainsi qu’une présentation vidéo courte, d’une à deux minutes, et une vidéo plus longue et détaillée de dix minutes.

Les sessions orales étaient organisées par thématiques : « 3D geometry & reconstruction », « Looking at humans », « Segmentation & scene interpretation and description, language », etc. Pour chaque thématique il y a eu deux sessions en direct, pour accommoder les fuseaux horaires différents. Pendant ces sessions orales, les vidéos courtes pré-enregistrées étaient lues les unes après les autres, suivies par la partie questions – réponses en direct. Les questions étaient posées dans le chat dédié, lues par les modérateurs de la session et répondues en direct par les présentateurs. Malheureusement, certains présentateurs étaient absents le moment venu, ce qui a limité certains échanges.

Mes impressions personnelles 

Chapô pour l’organisation

Tout d’abord, j’ai été très impressionnée par cette session. Je pense que les organisateurs ont eu un temps assez limité pour migrer toute leur préparation sous le format online, et leurs efforts sont remarquables. De plus, le format online a demandé aux auteurs de filmer leur présentation en amont, ce qui pour moi, présente deux intérêts. Tout d’abord, pour celle ou celui qui présente, cela permet de se filmer sans stress et de s’y reprendre plusieurs fois, s’il le faut. Ensuite, pour le public, la vidéo est stockée et « immortalisée », ce qui permet d’y revenir plusieurs fois si besoin.

Des formats « durables »

Par ailleurs, les vidéos et documents relatifs aux présentations, ainsi que le replay des sessions orales restent disponibles aux participants sur la plateforme pour une durée d’un an. Au vu de la quantité des informations présentées, cette approche me plaît beaucoup car elle permet de prendre le temps et d’explorer le contenu à son rythme, sans précipitation. Pour moi, c’est l’avantage le plus intéressant du format en ligne.

Les « playlists »

Une autre approche que j’ai beaucoup appréciée était la mise en place des playlists. En effet, les organisateurs avaient regroupé sous ce format les vidéos courtes par domaine et par type de présentation (oral, poster, etc.). Ceci est très utile en amont des sessions Questions – Réponses (Q&A pour Questions & Answers) pour se faire une idée rapide des sujets qui seront abordés et de se noter ceux qui paraissent les plus intéressants pour éventuellement les explorer davantage. En effet, comme le temps du Q&A passe très vite, cela permet de mieux s’y préparer.

Une piste d’amélioration

Un des aspects qui, selon moi, devrait être amélioré pour les sessions suivantes, c’est la gestion du calendrier. Le programme de chaque journée était disponible sous format pdf, et les horaires des activités étaient indiqués pour les différents fuseaux horaires, ce qui peut prêter à confusion. Par ailleurs, il était possible d’exporter les fichiers pour calendrier, mais uniquement un par un, ce qui n’est pas très pratique. J’aurais beaucoup aimé avoir un agenda intégré à l’événement, où l’on peut ajouter les événements qui nous intéressent et voir les potentiels conflits, et que l’on peut synchroniser avec le smartphone.

Coups de cœur : les trois travaux qui m’ont marquée

Parmi tous les travaux présentés à cette édition, trois m’ont particulièrement marquée et j’aimerais vous les décrire en quelques phrases.

« Crowdsampling the Plenoptic Function »

Mon premier coup de cœur est un papier du domaine de la synthèse d’images au titre indigeste imposant « Crowdsampling the Plenoptic Function » [1]. J’ai été impressionnée par la qualité et la pédagogie de la présentation, ainsi que par les résultats très réalistes. La motivation derrière ce travail est un constat assez simple : les monuments très connus sont photographiés par les touristes des dizaines et des centaines de fois par jour avec différentes prises de vue à différents moments de la journée et de l’année. On obtient ainsi un « échantillonnage par la foule » (crowdsampling) d’un monument dans l’espace et le temps. L’équipe de recherche propose une méthode pour « interpoler » toutes ces photos pour créer un objet de synthèse autour duquel on peut se déplacer virtuellement dans l’espace et le temps. Mais une vidéo vaut plus que mille mots, donc j’invite les intéressé·es à visiter la page web de ce projet.

« DEtection TRansformer »

La deuxième présentation qui m’a beaucoup intéressée portait sur une architecture de réseau de neurones pour la détection d’objet appelée DETR (DEtection TRansformer) [2]. La méthode proposée semble assez simple à mettre en place et à entraîner, et permet de se passer de quelques tâches « classiques » avec d’autres détecteurs, telles que la suppression de non-maxima a posteriori de la prédiction. Pour celles et ceux qui, comme moi, souhaitent mettre les mains sur le code, vous pourrez le trouver ici

« A Generalization of Otsu’s method and Minimum Error Thresholding »

Un troisième papier m’a marqué par sa simplicité apparente et son élégance : dans une conférence où la plupart des papiers traitent des réseaux de neurones et des problématiques d’apprentissage machine, l’auteur du papier « A Generalization of Otsu’s method and Minimum Error Thresholding » [3] propose une méthode pour le seuillage automatique des images qui ne repose « que » sur les mathématiques et qui s’implémente en une dizaine lignes de code Python. Comme quoi, on n’a pas toujours besoin de Deep Learning pour résoudre des problématiques de la vision par ordinateur 😉

Le mot de la fin – qu’est-ce que je retiens d’ECCV 2020 ?

J’ai beaucoup apprécié cette expérience. J’ai fait de belles découvertes et je me suis mis quelques papiers de côté pour les lire en détail plus tard. Même si j’espère que nous pourrons bientôt retrouver les conférences en présentiel avec la spontanéité des échanges que cela offre, en attendant, je trouve que la conférence virtuelle se défend très bien. Cela permet d’explorer d’autres manières de faire, et certaines pratiques me semblent intéressantes à garder pour plus tard, comme notamment l’accès aux présentations et vidéos sur les 12 mois après la conférence.

Vera Feldman, Ingénieure R&D


[1] Z. Li, W. Xian, A. Davis, and N. Snavely, “Crowdsampling the Plenoptic Function,” in Proc. European Conference on Computer Vision (ECCV), 2020.

[2]  N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-End Object Detection with Transformers,” May 2020.

[3] J. T. Barron, “A Generalization of Otsu’s Method and Minimum Error Thresholding,” in Proc. European Conference on Computer Vision (ECCV), 2020.