Présentation de la société : CNRS
Le Centre national de la recherche scientifique est un organisme public de recherche pluridisciplinaire placé sous la tutelle du ministère de l’Enseignement supérieure et de la Recherche. Créé en 1939 et dirigé par des scientifiques, il a pour mission de faire progresser la connaissance et être utile à la société dans le respect des règles d’éthique, de déontologie et d’intégrité scientifique.
Missions
Sujet de thèse :
Depuis le milieu des années 2000, un effort de recherche important s’est porté sur le liage d’entités textuel qui consiste à développer des systèmes capables 1- de repérer dans des textes des mentions d’entités (mots ou suites de mots désignant des personnes, des lieux, des organisations, des composés chimiques…) , 2- de générer toutes les entités candidates possibles pour chaque mention au sein de la base considérée, et, enfin, 3- de déterminer l’entité, parmi ses candidates, correspondant réellement à chaque mention du texte. Malgré les très bonnes performances des approches neurales récentes, cette tâche complexe n’est pas encore complètement résolue, en particulier dans des cas d’ambiguïté difficile à résoudre. Beaucoup plus récemment sont apparus des travaux abordant le liage d’entités dans un cadre multimodal, cherchant à exploiter conjointement les modalités visuelle et textuelle présentes dans des textes accompagnés d’images et des bases de connaissances enrichies elles aussi d’images, afin de faciliter la désambiguïsation. La thèse se situe dans ce cadre de liage d’entités multimodal et a pour objectif, en étudiant certaines questions insuffisamment ou non traitées jusqu’à présent, de faire avancer l’état de l’at de ce domaine encore jeune. Dans un premier temps, nous étudierons des méthodes visant à accroître la précision de la phase de génération des entités candidates pour une mention donnée. Dans un second temps nous aborderons concerne la fusion multimodale, avec pour objectif de proposer de nouvelles solutions. Troisièmement, exploiter pleinement les bases de connaissances à disposition est un défi majeur, sur lesquelles les recherches déjà menées se sont très peu penchées. Ceci concerne en particulier l’exploitation de leur structure, c’est-à-dire des relations existant entre les entités.
Cette thèse se déroulera dans le contexte de l’ANR AGAPE, coordonnée par l’IGN, qui a pour objet de rassembler dans une plateforme unique des contenus et données culturels et patrimoniaux en lien avec un jumeau numérique de la France bâti par l’IGN. Dans ce projet, il conviendra notamment de placer dans le jumeau des documents (photos, vues aériennes…) enrichis par des annotations de documentalistes, mais parfois avec un niveau de précision trop faible pour précisément les géolocaliser, ce qui est source d’ambiguïté. Le travail de recherche se verra donc appliqué dans un cas d’usage réel, grande échelle. La participation de collègues spécialistes, de l’IGN, des Archives Nationales, permettra de comprendre la nature de ces entités, mentions et des bases de connaissances particulières, qu’il sera possible de mettre en perspective des éléments plus habituellement utilisés pour la validation de contributions scientifiques dans la communauté TAL.
Contexte :
Le poste proposé se situe sur le campus de Beaulieu à Rennes. L'IRISA est aujourd'hui l'un des plus grands laboratoires de
Voir plus sur le site emploi.cnrs.fr…
Conditions particulières d'exercice
Le Centre national de la recherche scientifique est l’une des plus importantes institutions publiques au monde : 34 000 femmes et hommes (plus de 1 000 laboratoires et 200 métiers) , en partenariat avec les universités et les grandes écoles, y font progresser les connaissances en explorant le vivant, la matière, l’Univers et le fonctionnement des sociétés humaines. Depuis plus de 80 ans, y sont développées des recherches pluri et interdisciplinaires sur tout le territoire national, en Europe et à l’international. Le lien étroit que le CNRS tisse entre ses missions de recherche et le transfert vers la société fait de lui un acteur clé de l’innovation en France et dans le monde. Le partenariat qui le lie avec les entreprises est le socle de sa politique de valorisation et les start-ups issues de ses laboratoires (près de 100 chaque année) témoignent du potentiel économique de ses travaux de recherche.
Profil recherché
Contraintes et risques :