Link for online streaming: (https://youtu.be/IzKFvw3CzBw)
Titre : Apports croisés entre l’apprentissage hierarchique et la modélisation du système visuel: Catégorisation d’images sur des petits corpus de données
(Interactions between hierarchical learning and visual system modeling: Image classification on small datasets)
Thèse soutenue en : anglais
Thèse dirigée par : Frédéric ALEXANDRE and Thierry VIÉVILLE (IMN, équipe Mnémosyne)
Résumé vulgarisé en français
Le domaine de l’intelligence artificielle a connu diverses avancées dans la dernière décennie, en particulier avec le “deep learning” pour la reconnaissance d’images. Malgré une inspiration biologique, ces réseaux neuronaux profonds ont finalement un fonctionnement bien différent de notre vision naturelle. Essentiellement, il s’agit d’un objet mathématique avec des paramètres numériques qu’on peut ajuster de façon automatique, ayant recours à des larges corpus d’images pré-étiquetées. Ce n’est donc qu’après “avoir vu” des milliers de chats, chiens, voitures, arbres, personnes, etc, que le réseau sera capable de reconnaître ces éléments sur des nouvelles images (sans en comprendre le sens). Avoir accès à des grandes bases d’images étiquetées n’est malheureusement pas possible sur tous les domaines d’application. Pour des problématiques industrielles ou en imagerie médicale, par exemple, il peut être difficile voire impossible d’obtenir des centaines d’images variées d’un même problème, patient, etc. De plus, l’étiquetage de ces images est coûteux car il demande un avis expert. C’est là où réside la question centrale de cette thèse : comment peut-on profiter des avantages des réseaux de neurones profonds sur de petits corpus d’images ? Ce travail fait un pas vers cette réponse via une étude bibliographique étendue, complémenté par une étude expérimentale comprenant des propositions de modèles et mécanismes originaux.
Résumé scientifique
Les réseaux neuronaux convolutifs profonds (“deep convolutional neural networks” ou DCNN) ont récemment révolutionné la reconnaissance d’objets à grande échelle, modifiant les pratiques en vision par ordinateur, consistant à définir des caractéristiques représentatives “à la main”, désormais apprises de façon hiérarchique à partir des données, tout en les classifiant. Fort de la progression des performances matérielles, on exploite efficacement des quantités toujours croissantes d’images recueillies en ligne. Mais, dans des domaines spécifiques, comme en santé ou pour certaines applica- tions, les données sont moins abondantes, et les coûts d’étiquetage par des experts sont plus élevés. Cette rareté conduit à la question centrale de cette thèse : Ces domaines à données limitées peuvent-ils bénéficier des avantages des DCNN pour la classification des images ? Ce travail repose sur une étude approfondie de la littérature, divisée en deux parties principales, avant de proposer des modèles et des mécanismes originaux, expérimentés. La première partie couvre la reconnaissance des objets d’un double point de vue. Tout d’abord, la fonction visuelle biologique, est comparée et contrastée avec la structure, la fonction et les capacités des modèles DCNN. Puis, une revue de l’état-de-l’art identifie les principales catégories d’architectures et les innovations dans les DCNN récents. Cette base interdisciplinaire favorise l’identification des mécanismes — biologiquement et artificiellement inspirés — qui améliorent la reconnaissance d’images dans des situations difficiles. Le traitement récurrent en est un exemple clair : peu présent au niveau de la vision profonde, sauf le traitement aux vidéos — en raison du caractère naturellement séquentiel. Mais la biologie montre clairement qu’un tel traitement joue aussi un rôle dans l’affinement de notre perception d’une scène fixe. Ce thème est approfondi à travers une revue de la littérature consacrée aux architectures convolutionnelles récurrentes utilisées en catégorisation d’images. La deuxième partie se concentre sur notre question centrale : l’apprentissage profond sur de petits corpus de données. Tout d’abord, le travail propose une discussion plus précise et détaillée de ce problème et de sa relation avec l’apprentissage hiérarchique des caractéristiques réalisé par des modèles profonds. Cette discussion est suivie d’une revue structurée du domaine, organisant et discutant les différentes voies possibles vers l’adaptation des modèles profonds à des données limitées. Plus qu’une simple liste, ce travail vise à trouver du sens dans la myriade d’approches du domaine, en regroupant les méthodes ayant un objectif ou un mécanisme d’action similaire, pour guider le développement d’application particulières, à petits corpus. Cette étude est complétée par une analyse expérimentale, explorant l’apprentissage de petits jeux de données avec des modèles et mécanismes originaux (précédemment publié comme papier de journal). En conclusion, l’apprentissage profond sur des petits corpus de données peut donner de bons résultats, si cela se fait de manière réfléchie. Au niveau des données, il faut essayer de recueillir plus d’informations à partir de sources de données supplémentaires connexes. Au niveau de la complexité, l’architecture et les méthodes d’entraînement peuvent être calibrées afin de tirer le meilleur parti de toute connaissance spécifique au domaine. Des propositions sont discutées en détail au fil du document. Il existe de multiples façons de réduire la complexité de l’apprentissage profond avec de petits échantillons de données, mais il n’y a pas de solution universelle. Chaque méthode a ses propres inconvénients et difficultés pratiques, devant toujours être adaptée spécifiquement à l’application, c’est-à-dire à la tâche perceptive à accomplir.
Mots-clés :
apprentissage profond, catégorisation d’images, apprentissage sur petit corpus de données, réseaux de neurones convolutifs, apprentissage par transfert.
Jury |
|||
---|---|---|---|
CARRÉ, Philippe | Pr. | Univ. de Poitiers | Reviewer |
ESCOBAR, Maria Jose | Asc. Pr. | Univ. Técnica Federico Santa María, Chile | Reviewer |
JOUFFRAIS, Christophe | DR | CNRS IPAL IRL2955, Singapour | Examiner |
SAUZÉON, Helène | Pr. | Univ. de Bordeaux | Examiner |
VON ZUBEN, Fernando José | Full Pr. | Univ. estadual de Campinas, Brazil | Examiner |
Publications
- Drumond TF, Viéville T and Alexandre F (2019) Bio-inspired Analysis of Deep Learning on Not-So-Big Data Using Data-Prototypes. Front. Comput. Neurosci. 12:100. doi: 10.3389/fncom.2018.00100
- Drumond TF, Viéville T and Alexandre F (2017) Using prototypes to improve convolutionalnetworks interpretability. NIPS 2017 – 31st Annual Conference on Neural Information Processing Systems: Transparent and interpretable machine learning in safety critical environments Workshop,Dec 2017, Long Beach, United States. hal-01651964