Recherche en Traitement Automatique des Langues (TAL)

Thématiques actuelles

L'équipe CRIT - Centre Tesnière développe principalement des méthodes en analyses textuelles à base de connaissances linguistiques. Parmi les applications que nous développons sont : traitement de textes scientifiques et techniques, extraction d'information et recherche d'information sémantique, traitements multilingues, analyse des sentiments, applications pour la didactique des langues, extraction de terminologies et langues de spécialités.

Mots clés : extraction d'information, analyse des sentiments, fouille textuelle, syntaxe, traduction, terminologie, langues de spécialité, ontologies


Recherches et projets antérieures en TAL

Recherche fondamentale en linguistique pour des applications en TAL de qualité

  • SyGuLAC (Systemic Grammar using a Linguistically motivated Algebra and Calculus)

Recherche en syntaxe dans un but de correction automatique et d'apprentissage du français (utilisable pour d'autres langues)

  • le système STUDYGRAM pour l'enseignement de la grammaire des langues que nous complétons au fur et à mesure de la création des algorithmes ;
  • le système ORTHOGRAM pour la correction orthographique grammaticale (recherche essentiellement sur l'anaphore, les homophones, le sujet et les accords).

Travaux sur l'ambiguïté due à la morphologie

  • Des recherches sur les mots simples, les composés, les collocations et le figement ont débouché sur le système LABELGRAM. Ce système permet non seulement de découper la phrase en mots-formes et de les étiqueter de la catégorie grammaticale à laquelle ils appartiennent mais également de lever les ambiguïtés quand un mot est polycatégoriel (comme "la","ferme", etc.) et d'étiqueter les néologismes.

Data et Sense mining

  • Sur 9 langues avec des applications dans les domaines de la sécurité et de l'industrie (consulter le site du projet LiSe).

Divers dictionnaires

  • Dictionnaires électroniques multilingues.

Un système sous forme de prototype permet la réaccentuation automatique correcte de textes non ou mal accentués (diacritiques).

Un système utilisant la logique floue pour aider à la détermination des mots flous tels "bon, bien, chaud, ..." auxquels une valeur numérique est attribuée (système SIBDLN (Système d'Interrogation de Bases de Données en Langage Naturel).

Une recherche pour une représentation formelle, spécification, permettant le passage d'un langage à un autre et d'une langue à une autre sans ambiguïté possible.

Reconnaissance et génération de locutions ou collocations dans les systèmes de traduction

  • Un système de dictionnaires multilingues de locutions et collocations (projet MultiCoDiCT).

Sciences cognitives, psycholinguistique

  • épistémologie du TAL ;
  • approches sciences cognitives et énonciatives en prenant en compte le lexique, la syntaxe, la pragmatique, l’apprentissage des langues, la dialectologie.

Traduction automatique

Systèmes de traduction automatique de langues éloignées (TACT, Traduction Automatique Centre Tesnière).

Travaux sur les langues contrôlées en industries

Toutes ces recherches sont menées de front avec les séminaires du Master et également avec les enseignements distribués dans le cadre du TAL en licence.

Nous avons chaque année des enseignants invités d'autres pays qui viennent passer de un à trois mois dans notre laboratoire.

Les résultats des recherches au fur et à mesure sont présentés lors de communications et conférences à des colloques nationaux et internationaux et publiés dans différentes revues et actes de colloques.