Section 34 Sciences du langage

IV. Approches transversales (∼ 23 %)

Les approches transversales se distinguent de la linguistique fondamentale et de l'investigation de l'usage du langage dans la communication par leur méthodologie davantage que par leurs objets d'étude. Elles peuvent donc concerner tous les domaines indiqués plus haut et ont pour particularité de pouvoir, plus directement que les trois thématiques précédentes, se prêter davantage à des résultats applicatifs.

A. Psycholinguistique (∼ 14 %)

La thématique Psycholinguistique regroupe une trentaine de chercheurs, dans plusieurs laboratoires : LPL (UMR7309), SFL (UMR7023), LPP Paris 3 (UMR7018), LPP Paris 5 (UMR8242), LSCP (UMR8554), GIPSA (UMP5216), L2C2 (UMR5304), DDL (UMR5596), MODYCO (UMR7114). Cette thématique vise à décrire et à analyser les mécanismes qui permettent de produire et comprendre le langage au sens large. Elle recouvre principalement des recherches sur le langage parlé, depuis les traitements auditifs, phonétiques et phonologiques jusqu'à la syntaxe, la sémantique et la pragmatique en passant par la morphologie et l'accès au lexique, et ce très majoritairement en perception plutôt qu'en production de parole. Une partie des recherches concerne aussi le traitement du langage écrit, pour l'influence de l'orthographe sur la perception phonétique ou l'accès au lexique, pour les processus de médiation phonologique, ou encore pour l'analyse morphologique. Les psycholinguistes de la section 34 s'intéressent à l'adulte monolingue, mais aussi de plus en plus aux multilingues, avec quelques chercheurs spécialisés dans les études interlangues, ainsi que sur les langues signées et le bilinguisme bimodal. Un nombre croissant de chercheurs (8/29 en 2014) sont spécialisés dans les processus d'acquisition du langage parlé (sons élémentaires, lexique, morphosyntaxe, etc.) chez les très jeunes enfants. Les recherches sur les pathologies (dysarthries, dysphasies, dyslexies) sont une autre tendance forte. L'éventail des méthodes expérimentales de la psycholinguistique est bien représenté dans la section 34 (méthodes comportementales et électrophysiologiques, imagerie cérébrale, enregistrements articulatoires, modélisations), avec une importance notable des travaux sur corpus parlés, spontanés ou non, ou encore sur corpus écrits. Les recrutements depuis 2010 montrent que (1) l'expérimentation occupe une place de plus en plus importante, (2) huit des psycholinguistes de la section travaillent dans un laboratoire de psychologie et/ou de neurosciences cognitives et les autres dans des laboratoires orientés vers la phonétique et la phonologie (au LPL), (3) beaucoup d'entre eux travaillent sur l'acquisition.

La psycholinguistique française connaît un succès international indéniable, comme le montre la qualité des publications du domaine.

B. Traitement automatique du langage naturel et linguistique informatique (∼ 6 %)

Le Traitement Automatique des Langues (TAL) et la linguistique informatique (LI) traitent de la modélisation informatique des langues humaines aussi dites langues naturelles. À ce titre, on trouve des chercheurs en TALN sur deux sections du CNRS, la 34 et la 07 (Sciences de l'information). Ces chercheurs se répartissent assez uniformément sur le territoire français, de la région parisienne (LIMSI, UPR3251 ; LATTICE, UMR8094) à Nancy (LORIA, UMR7503), Toulouse (IRIT, UMR5505 ; CLLE UMR5263), Aix-Marseille (LIF, UMR7279 ; LPL, UMR7309), Avignon (LIA, EA4128) et Nantes (LINA, UMR6241).

Ces deux sous-disciplines des sciences du langage (TAL et LI) couvrent un spectre allant de l'analyse et de la modélisation des propriétés linguistiques et computationnelles des langues humaines au développement de modules et de systèmes informatiques traitant de tâches applicatives spécifiques. Au pôle théorique de ce spectre, on trouve le développement d'analyseurs syntaxiques permettant de prédire la structure en constituants d'une phrase, et à l'autre des applications telles que Google Translate ou le système de dialogue Homme-Machine de GDF.

Plus généralement, les grands axes de recherche de la linguistique informatique portent sur la modélisation des processus et des représentations des différents niveaux linguistiques dont, notamment, le traitement du niveau phonologique (e.g., alignement texte/parole) et morphologique (e.g., étiquetage et analyse morphologique des mots) ; l'analyse lexicale (e.g., analyse lexicale distributionnelle) ; l'analyse syntaxique et sémantique de la phrase et du discours ; et l'analyse de la structure du dialogue (e.g., construction de représentations discursives, étiquetage des tours discursifs ; gestion du dialogue). L'analyse lexicale distributionnelle est devenue à l'heure actuelle un champ de recherche très actif au niveau mondial, bien que la composition de ses objets pour obtenir une représentation du contenu d'un constituant de phrase, voire d'une phrase reste un défi théorique majeur (cf. § I.D).

Dans une perspective plus cognitive, le domaine aborde également des thématiques telles que la modélisation du processus d'acquisition de la langue à partir de corpus documentant le développement linguistique des enfants (e.g. le corpus CHILDES : Child Language Data Exchange System) ou encore le développement de modèles ancrant la langue dans l'environnement physique (grounded language learning) e.g., de modèles, qui apprennent, à partir de vidéos sous-titrées, la correspondance entre mots et objets.

Enfin d'un point de vue applicatif, le TAL vise le développement de systèmes ou de modules qui permettent un traitement par ordinateur des données langagières et tiennent compte des spécificités du langage humain. Il recouvre à ce titre un champ très large d'applications dont, notamment, la recherche et l'extraction d'information, la veille technologique, la fouille de textes, la correction orthographique et grammaticale, les systèmes de question/réponse, la traduction automatique, les moteurs de dialogue Homme-Machine, la fouille d'opinions, le résumé automatique et la simplification et la génération de textes.

Afin de construire des modèles rendant compte du contexte (visuel, situationnel, épistémique), des différents niveaux de représentation linguistique (phonétique, phonologie, morphologie, syntaxe, sémantique etc.) et de leur inter-relations, le TAL et la LI reposent sur l'utilisation de méthodes symboliques (grammaires computationnelles, approches logiques, systèmes à base de règles), statistiques (apprentissage supervisé, semi-supervisé et non supervisé) et hybrides statistiques/symboliques. Si le développement des corpus d'apprentissage et des méthodes symboliques requiert une expertise linguistique forte (e.g. connaissance de la syntaxe pour la construction d'un corpus arboré destiné à l'apprentissage d'un analyseur syntaxique), l'utilisation, l'adaptation et l'optimisation des méthodes statistiques aux problématiques langagières exigent par ailleurs, des connaissances poussées dans les domaines de l'algorithmique, des statistiques et de l'apprentissage automatique. Les recherches dans ce domaine sont donc par essence inter-disciplinaires, se situant à l'interface entre informatique, linguistique et modélisation statistique. En outre, l'interface entre TAL/LI et d'autres domaines tels que la psychologie, le traitement du son et de l'image, la robotique et le traitement des connaissances prend actuellement une ampleur renforcée d'une part, parce que les méthodes utilisées (réseaux de neurones, machines à noyaux, champs de Markov conditionnels, etc.) sont de plus en plus communes et d'autre part, parce que l'émergence de nouvelles données conduit naturellement à une synergie entre ces domaines. Ainsi, l'intensification du flux de données sur le web soulève naturellement la question d'un traitement sémantique du texte où les données du web (linked data, ontologies, bases de données) seraient les données sémantiques référencées par le texte, de même que la prolifération des documents multimédias soulève celle d'un traitement intégré des données textuelles, audio et vidéo.

Au plan économique et sociétal, le domaine du TAL est porteur de développements industriels importants, pour le développement d'agents conversationnels multimodaux (téléguidage de robots), de l'accès aux connaissances dans les données textuelles et de la préservation du patrimoine linguistique et culturel. En résumé, la demande dans le domaine du TAL ne cesse de croître dans le monde entier. Les offres de postes, dans des centres de recherche publics et privés (Google, Yahoo) comme dans l'industrie, augmentent et les technologies de l'ingénierie linguistique deviennent un enjeu majeur pour traiter des données languagières en isolation et en interaction avec d'autres modalités. Bien que la communauté française du TAL soit structurée autour d'une association forte (ATALA) disposant d'une revue (TAL), d'une conférence nationale (TALN) et d'une liste de diffusion (LN), elle manque encore d'ouverture internationale comme en témoigne sa faible présence dans les grandes conférences et les grandes revues du domaine.

C. Lexicographie et lexicologie (∼ 3 %)

Le champ de la lexicologie/lexicographie, conçu comme portant sur l'étude du lexique, indépendamment de son caractère construit (morphologique) ou non, est principalement représenté à l'ATILF (UMR7118), acteur majeur, en France, de la mise à disposition numérique de dictionnaires grâce au CNRTL (Centre National de Ressources Textuelles et Lexicales, http://www.cnrtl.fr). Des chercheurs se répartissent dans d'autres laboratoires (CLLE, UMR5263 ; CRLAO, UMR8563 ; LLF, UMR7110 ; L2C2, UMR5304).

Selon les chercheurs, l'objectif peut être de décrire le lexique en synchronie (représentation de connaissances, constitution de lexiques spécialisés ou de langue générale) ou encore dans une perspective diachronique ou comparatiste.

Du point de vue des méthodes, un trait partagé par plus de la moitié des chercheurs de ce champ est le recours aux corpus textuels numérisés, lesquels ont profondément renouvelé la documentation disponible et permettent d'observer des phénomènes auparavant plus difficilement repérables comme les variations diatopiques ou diaphasiques. Deux autres tendances sont la formalisation de la description, qui prend maintenant de plus en plus la forme de bases de données plutôt que de textes, ainsi que la volonté de rendre compte des relations intralexicales au moyen de modèles mathématiques.

Les langues étudiées sont le français et plus généralement les langues romanes, mais aussi le chinois.