Sujet de Thèse de Doctorat :

Développment d'un système de recherche et d'analyse automatique de documents pour le catalogue de santé CISMeF

Accueil : Groupes « Document et Systèmes Interactifs » et « Apprentissage et Classification » du Laboratoire PSI à l'INSA de Rouen

Encadrement : Co-direction : Alexandrina Rogozan - Maître de Conférences - et S.J. Darmoni - Professeur -

Financement  : Ce sujet de thèse fait l'objet d'une bourse ACI

 
Interactions prevues dans le cadre de la thèse  :
 
Cadre d'échanges créé grâce au Projet Université Médicale Virtuelle Francophone. Les aspects méthodologiques concernant l'ingéniérie de la connaissance et l'ingéniérie pédagogique seront étudiés essentiellement dans ce cadre avec différentes équipes :
 
Laboratoire d'Informatique Médicale, Faculté de Médecine de RENNES (Bruno Pouliquen, Docteur LEDUFF, Docteur BURGUN, Professeur LEBEUX,  Département de Biomathématiques, Université PARIS VI (P. ZWEIGENBAUM, N. GRABAR).


Participation aux manifestations scientifiques de l'association pour le Traitement Automatique de LAngues.
 

Problématique :
 
L'analyse et le traitement automatique de documents médicaux sont des défis majeurs qui ne sont pas encore complétement résolus. L'objectif du projet CISMeF (Catalogue et Index des Sites Médicaux Francophones) est de recenser à partir des ressources disponibles sur Internet, celles qui sont pertinentes, afin de génerer des

(1) documents pour les professionnels de santé (n = 1.000), (2) documents pédagogiques pour les étudiants (n = 1.800) et (3) documents pour les patients, leur famille et le grand public (N=1.200).

L'automatisation de l'indexation, de la veille et du résumé du  catalogue de santé CISMeF sont les premiers objectifs que nous nous sommes fixés dans le cadre de cette thèse de doctorat. L'enjeu scientifique de cette thèse est double. D'une part, il est nécessaire d'effectuer une veille sur l'Internet pour enrichir en permanence le catalogue CISMeF. D'autre part, les nouveaux documents devons être indéxés avant de les insérer dans la base de données. Cela représente un réel défi puisqu'il faut alors comprendre le contenu du document.

Plusieurs combinaisons entre moteurs de recherche (pour rassembler un maximum de documents) et algorithmes d'Extraction de Connaissance (pour en isoler les documents pertinents) seront testé de manière à proposer une solution optimale au problème de la veille automatique pour le catalogue CISMeF.

Il sera intéressant de comparer, sur la base CISMeF, les résultats de différentes méthodes d'indexation automatique (e.g. réseaux de neurones, de chaînes de Markov cachées et/ou de « Support Vecteur Machine » ). Le vocabulaire des documents visés est restreint au domaine médicale et de plus, la base CISMeF propose près de 10.000 ressources indexées. Ceci permettrait d'effectuer un apprentissage suffisamment fin des différents modèles.


Contact scientifique  :

Alexandrina Rogozan
Laboratoire PSI & Dépt. ASI - INSA de Rouen
Tél: +33 (0) 2 32 95 98 75 - FAX: +33 (0) 2 32 95 97 08
http://asi.insa-rouen.fr/~arogozan - Mél : alexandrina.rogozan@insa-rouen.fr
 

Dr. SJ Darmoni ( Tel: +02 32 88 88 29 ; mél : Stefan.Darmoni@chu-rouen.fr )