Rapport de conjoncture 2019

Section 34 Sciences du langage

Composition de la Section

Nabil Hathout (président de Section), Thomas Pellard (secrétaire scientifique), Enoch Oladé Aboh, Marta Abrusan, Evangelia Adamou, Anne-Marie Argenti, Gabriel Bergounioux, Elisabetta Carpitelli, Carlo Cecchetto, Maud Champagne-Lavau, Pascal Denis, Caterina Donati, Urtzi Etxeberria, Beatrice Godart-Wendling, Jean-Remy Hochmann, Giancarlo Luxardo, Christoph Reintges, William Sayer, Rudolph Sock, Benjamin Spector, Ali Tifrit.

Résumé

La section 34 se consacre aux sciences du langage. Elle couvre un ensemble étendu de sous-domaines : phonétique ; phonologie ; morphologie ; lexicologie et lexicographie ; syntaxe ; sémantique ; pragmatique ; discours, texte et dialogue ; philosophie du langage ; évolution du langage ; typologie et diversité des langues ; linguistique historique et comparative ; sociolinguistique, contact de langues et dialectologie ; psycholinguistique et neurolinguistique ; acquisition du langage ; traitement automatique du langage naturel et linguistique informatique ; linguistique de corpus ; histoire de la linguistique. Il a semblé utile d’ajouter une section sur la démographie des chercheurs rattachés à la 34 et sur celles des ITA affectés à des laboratoires relevant de la 34.

Introduction

Les sciences du langage s’intéressent au langage comme capacité humaine universelle, intimement liée à des processus cognitifs et à des processus sociaux. Ce sont les caractères structurels du langage ainsi que les processus généraux qui en régissent l’emploi, notamment dans la communication humaine, qui constituent le cœur des sciences du langage et font l’objet notamment des recherches en linguistique théorique et formelle. L’universalité du langage va de pair avec la diversité des langues naturelles. L’une comme l’autre sont des sujets de recherche importants de la discipline tout comme l’évolution du langage et la diversification diachronique, diatopique, diamésique et sociale des langues. La recherche en sciences du langage s’attache à préserver les capacités réflexives et critiques sur toute question impliquant la fonction, les usages et les effets des langues dans la société afin de contribuer à une information documentée et à des prises de décision éclairées.

Si les sciences du langage partagent une partie de leur périmètre avec les sciences cognitives, les neurosciences, l’informatique et les sciences de l’éducation, elles gardent une forte spécificité liée à la place première qu’elles accordent aux langues et au langage. La proximité avec ces disciplines est de plus en plus importante du fait notamment du recrutement de chercheurs pluridisciplinaires qui entraîne une évolution notable vers les approches expérimentales avec la généralisation de l’utilisation de gros corpus, de modèles informatiques, de bases de données et compte tenu de la place prise par les travaux en psycholinguistique, neurolinguistique, sociolinguistique dans toutes les spécialités détaillées dans la suite de ce chapitre. Les sciences du langage, discipline relativement jeune, deviennent ainsi plus mûres.

Comme toutes les sciences où l’approche expérimentale occupe une grande place, les sciences du langage sont confrontées à une crise de la reproductibilité des résultats notamment en psycholinguistique et neurolinguistique, mais aussi à un problème de qualité des jeux de données dans beaucoup de tâches en traitement automatique des langues. La réponse à ces difficultés passera probablement par une plus grande standardisation des dispositifs expérimentaux conçus et utilisés en sciences du langage. Cependant, l’un des plus grands défis auquel les sciences du langage vont devoir faire face à court et moyen terme vient de l’intelligence artificielle où le traitement des données langagières occupe une place centrale. Les systèmes fondés sur l’apprentissage automatique sont de plus en plus performants et devraient atteindre rapidement une qualité dans le traitement de ces données proches de celle des humains. La difficulté vient du fait que ces systèmes réalisent ces tâches souvent très complexes sans aucune analyse linguistique et sans aucune représentation interne des objets fondamentaux de la linguistique comme les phonèmes. Si l’intelligence artificielle est un défi qui conduira très probablement à un renouvellement en profondeur des questionnements en sciences du langage, c’est aussi dans l’immédiat une opportunité pour ces dernières de disposer de nouveaux instruments qui permettent d’aborder des questions jusqu’ici inaccessibles.

Signalons également la progression très nette des dossiers des candidats qui se présentent aux concours (et des lauréats de ces concours) notamment au niveau CR dont la production scientifique et les publications sont souvent d’un niveau exceptionnel. Ce qui est remarquable, c’est que cette progression concerne globalement toutes les spécialités des sciences du langage, ce qui permet de maintenir une diversité thématique importante dans les recrutements.

La section 34 se distingue au sein du CNRS par une parité femme-homme quasi parfaite dans les recrutements et les promotions. Elle se distingue aussi par une internationalisation très grande des candidatures aux concours, avec plus de 65 % de candidats étrangers et par suite des recrutements, témoignant ainsi du rayonnement et de la très forte attractivité des laboratoires de sciences du langage de France.

On constate enfin une bonne adéquation entre les principes qui guident les travaux de la section et les priorités scientifiques du CNRS et en particulier de l’InSHS exprimées notamment dans les coloriages des postes ouverts au concours. Un autre point important est que la section 34 recrute et promeut très régulièrement des chercheurs qui sont affectés dans des unités d’autres instituts (INSB, INS2I essentiellement), et cela avant même que certains de ces recrutements ne soient institutionnalisés par des fléchages.

I. Phonétique, phonologie, morphologie, lexicologie et lexicographie

A. Phonétique

La phonétique vise à décrire et à analyser les mécanismes de production et de perception de la parole, ainsi que le produit, acoustique ou perceptif, de ces mécanismes. Elle recouvre principalement aussi bien la description que la modélisation de la production et la perception de la parole du point de vue acoustique et articulatoire (e.g., relations entre perception et production, calcul de l’articulation à partir du signal acoustique). On observe une tendance forte à travailler à l’interface entre phonétique et phonologie de laboratoire et psycholinguistique notamment sur l’acquisition et le bilinguisme. D’autres axes de recherche concernent la description des systèmes sonores des langues, en lien avec la phonologie et la typologie, l’étude diachronique des langues, les variétés régionales et les dialectes romans, champ qui se révèle de plus en plus productif. La phonétique clinique, et notamment les travaux sur les pathologies de la parole, constitue aujourd’hui un autre secteur particulièrement prometteur.

La plupart des recherches en phonétique sont de type expérimental (en production : analyses acoustiques et analyse des gestes des articulateurs ; en perception : tests comportementaux, électrophysiologie, imagerie cérébrale). Le recueil et l’analyse de corpus, allant du contrôlé au spontané, sont largement représentés, avec, pour l’acquisition de la parole, des corpus de parole enfantine ou de parole adressée aux enfants. La modélisation acoustique et articulatoire est également présente dans les études de production bien que les recherches sur les modèles articulatoires devraient être développées davantage. Quelques chercheurs sont spécialisés dans des langues particulières (e.g., langues afro-asiatiques, langues de l’Asie du sud-est), mais la majorité est généraliste ou adopte une approche comparée.

Parmi les domaines interdisciplinaires auxquels la phonétique apporte une contribution, la sociophonétique et la neuro-phonétique apparaissent comme particulièrement productives. Le premier domaine croise les approches théoriques et les méthodes propres à la phonétique expérimentale avec celles des études variationnistes venant notamment de la sociolinguistique mais aussi de la psycholinguistique (§ III.D) ; dans ce cadre, les nouvelles études sur la voix et le genre prennent de l’importance. Le deuxième domaine, à l’interface entre phonétique, neurologie et sciences cognitives, s’intéresse à l’acquisition et aux pathologies de la parole avec une attention grandissante pour la parole multimodale.

Notons enfin que l’apport des études phonétiques aux études sur la prosodie des langues, y compris dans le cadre du contact linguistique tend à se renforcer.

Unités de recherche : GIPSA-lab (UMR5216), IPS LiLPa (EA1339), LIMSI (UPR3251), LLING (UMR6310), LPL (UMR7309), LPP (UMR7018), LORIA (UMR7503), PRAXILING (UMR5267).

B. Phonologie

La phonologie se consacre à l’identification et à l’étude des unités minimales pertinentes du langage, ainsi que des principes qui régissent leurs distributions et leurs fonctions. Si phonétiquement on observe une forte variation des réalisations sonores (acoustiques, articulatoires, gestuelles), la phonologie examine les représentations permettant de ramener cette diversité à une identité sous-jacente, à un nombre restreint de catégories (phonèmes, syllabes, gabarits, configurations manuelles en langue des signes) et de principes. Elle s’attache à définir le contenu intrinsèque de ces catégories (traits binaires / unaires, constituants syllabiques, tons), les processus qui les affectent (harmonie, allongement, assimilation, dissimilation, métathèse, liaison, activité gabaritique) et qui ne peuvent s’expliquer sur la seule base de la substance. Par sa dimension symbolique, la phonologie entretient naturellement des liens avec la morphologie et la syntaxe, disciplines avec lesquelles elle partage une partie de ses outils d’analyse et de formalisation.

La majeure partie des chercheurs en phonologie en France s’inscrivent dans des modèles héritiers du cadre formel génératif : la phonologie du gouvernement et la théorie de l’optimalité. Si l’on observe une proximité naturelle avec la phonétique, et notamment avec la phonologie de laboratoire (voir §I.A), l’émergence actuelle des approches phonologiques des langues signées ne doit pas être négligée. Notons également l’importance croissante des travaux basés sur corpus et le développement des approches quantitatives et/ou mixtes qui remettent en question la dichotomie phonétique/phonologie, voire qui la dépassent.

Les recherches à l’interface de la phonologie et de la phonétique et/ou de la psycholinguistique visent à mieux comprendre et définir le lien entre l’aspect cognitif et abstrait de la parole humaine et son aspect physique et traitent principalement de questions liées à la nature des représentations phonologiques chez l’adulte, l’enfant ou le nourrisson. La démarche expérimentale en phonologie est fortement visible dans les travaux employant les méthodes de la psychologie expérimentale. Elle est également présente dans les recherches fondées sur des approches computationnelles qui visent à proposer des modélisations plausibles du point de vue cognitif dans le cadre des études sur l’acquisition et l’apprentissage de la phonologie.

L’éventail de langues traitées dans le cadre de la phonologie, outre le français et les langues de France, est large et s’appuie sur des données issues d’un travail de terrain permettant d’asseoir les analyses sur une base empirique fiable. Cette richesse contribue efficacement à une meilleure description et compréhension de la diversité typologique des langues humaines appartenant à des familles génétiquement diverses et typologiquement non reliées (afro-asiatiques, germaniques, romanes, sino-tibétaines, bantoues, basque).

Unités de recherche : BCL (UMR 7320), CLLE (UMR5263), CRLAO (UMR8563), DYLIS (EA7474), DDL (UMR5596), GIPSA-lab (UMR5216), IKER (UMR5378), LACITO (UMR7107), LLACAN (UMR8135), LLF (UMR7110), LLING (UMR6310), LLL (UMR7270), LPL (UMR7309), LPP (UMR7018), LSCP (UMR8554), SFL (UMR7023), STL (UMR8163).

C. Morphologie

La morphologie vise à étudier les corrélations régulières qu’entretiennent les lexèmes avec leurs mots-formes (on parle alors de morphologie flexionnelle) ou les lexèmes entre eux (il s’agit alors de morphologie dérivationnelle ou constructionnelle). Selon que l’accent est mis sur la forme, le sens, ou sur les conditions d’utilisation, d’émergence ou de mise en mémoire des lexèmes et de leurs mots-formes, les recherches s’inscriront également dans le champ de la phonologie, de la sémantique, de la syntaxe, de la pragmatique ou de la psycholinguistique. La morphologie se prête bien à la modélisation cognitive et informatique. Elle donne lieu à des travaux relevant du traitement automatique des langues et de la création de bases de données et de ressources.

Toutes ces orientations se retrouvent dans l’éventail des recherches actuellement menées en France, dans des cadres théoriques variés, qui vont de la morphologie paradigmatique, en passant par la morphologie lexématique jusqu’à la morphologie dite distribuée. Les méthodologies sur lesquelles ces travaux se fondent tendent à s’appuyer sur des corpus de grande taille et relèvent pour certains de la linguistique expérimentale.

Une nouvelle orientation prometteuse pour l’étude de l’organisation morphologique du lexique est fondée sur l’exploitation de ressources lexicales participatives comme les dictionnaires collaboratifs. Ces travaux se situent à l’articulation entre morphologie, linguistique de corpus et traitement automatique des langues.

Les recherches en morphologie essentiellement conduites sur le français et sur les langues romanes portent aussi sur des langues non indo-européennes (notamment afro-asiatiques, amérindiennes, sino-tibétaines, basque).

Unités de recherche : ATILF (UMR7118), CLLE (UMR5263), LLF (UMR7110), LLING (UMR6310), LLL (UMR7270), MoDyCo (UMR7114), SFL (UMR7023), STL (UMR7023).

D. Lexicologie et lexicographie

La lexicologie étudie les unités lexicales, les mots et les expressions figées mais également les relations qu’elles entretiennent entre elles. Elle donne lieu à des travaux diachroniques (étude du lexique dans une perspective historique et philologique ; réalisation de dictionnaires étymologiques) et synchroniques (constitution de dictionnaires ; analyse des interactions entre lexique et syntaxe, entre lexique et sémantique ; évolution du lexique dans sa mise en discours ; place du lexique dans la cognition).

Les recherches lexicales, terminologiques et phraséologiques se servent souvent des méthodes de la linguistique de corpus pour l’analyse des collocations, de la néologie ou encore des langues de spécialité. Toujours en lien avec la linguistique de corpus, la lexicométrie s’intéresse à la fréquence et aux cooccurrences des unités lexicales dans des corpus textuels, ainsi qu’à leur sens et leur usage.

Les travaux de lexicologie et lexicographie et notamment la constitution de dictionnaires et de grands corpus, couvrent un grand nombre de langues avec en premier lieu le français et les langues romanes et leurs variétés dialectales, l’allemand, les langues peu dotées d’Afrique sub-saharienne et d’Asie du sud-est et les langues en danger.

Un développement récent en lexicographie est la création participative de dictionnaires de qualité. Cette nouvelle lexicographie collaborative et les ressources lexicales qui en dérivent restent peu explorées dans les travaux plus traditionnels et sont principalement exploitées par d’autres secteurs de la linguistique comme la morphologie (§ I.C), la linguistique de corpus (§ V.B), la didactique des langues et pour la remédiation auprès de personnes atteintes de pathologies de la parole et de la lecture.

Unités de recherche : ATILF (UMR7118), BCL (UMR7320), CRLAO (UMR8563), DDL (UMR5596), IREMAM (UMR7310), LACITO (UMR7107), LATTICE (UMR8094), LIDILEM (EA609), LIG (UMR5217), LLACAN (UMR8135), STL (UMR8163).

II. Syntaxe, sémantique, pragmatique, discours, texte et dialogue, philosophie du langage

A. Syntaxe

La syntaxe étudie la façon dont des unités de signification (morphèmes, mots) se combinent entre elles pour engendrer des unités de signification plus grandes (syntagmes, propositions, phrases). Elle cherche à déterminer les combinaisons possibles et impossibles d’unités et à découvrir les principes qui président à leur combinaison, et ce faisant à éclairer les mécanismes de leur interprétation.

Les recherches en syntaxe sont diversifiées, tant du point de vue des paradigmes scientifiques et méthodologiques représentés, qu’au niveau des aires culturelles couvertes. Les cadres théoriques adoptés incluent la grammaire générative minimaliste, HPSG, les grammaires de contraintes, les approches fonctionnalistes, etc. Les recherches portent notamment sur l’interface avec les autres niveaux d’analyse, notamment la sémantique, la morphologie, la phonologie et la prosodie. Des recherches sont conduites à la fois dans un but descriptif (description explicite de la grammaire de différentes langues) et dans un but théorique (mise au jour de principes et contraintes universels). Beaucoup de recherches combinent la syntaxe avec le traitement automatique des langues (TAL), la psycholinguistique, la typologie, la linguistique de terrain ou la sociolinguistique. Elles comportent une forte dimension expérimentale qui met à l’épreuve les hypothèses théoriques en collectant des données de traitement, de compréhension ou de production, études de corpus et en recourant à des méthodes d’analyse quantitative. Nous assistons par ailleurs à un renouvellement des questionnements avec des travaux sur la syntaxe et la sémantique des langues signées, et également en neuro-syntaxe (études des corrélats neuronaux des structures syntaxiques hiérarchiques).

Les recherches en syntaxe portent sur un grand éventail de langues : langues romanes, germaniques ou slaves, mais également des langues typologiquement plus éloignées, notamment le basque, les langues d’Asie orientale, langues celtiques, ainsi que les créoles, les langues mandées, les langues tchadiques, ou les langues des signes.

Unités de recherche : BCL (UMR7320), CRLAO (UMR8563), IKER (UMR5478), IJN (UMR8129), LLACAN (UMR8135), LLF (UMR7110), LLING (UMR 6310), Mondes iranien et indien (FRE2018), SeDyL (UMR8202), SFL (UMR7023).

B. Sémantique

La sémantique a pour sujet le sens ou contenu des mots et des constructions linguistiques (syntagmes, phrases, discours). Elle s’intéresse notamment à la manière dont le sens d’une expression complexe dépend du sens de ses éléments plus simples (compositionnalité). Son champ inclut l’étude (i) des catégories lexicales à pertinence grammaticale (sémantique des classes de noms, des classes de verbes et types de situations, des expressions gradables, vagues ou scalaires, etc.) et de l’ontologie qu’elles supposent, (ii) des items lexicaux appartenant aux catégories fonctionnelles qui constituent « l’appareil quantificationnel du langage » (déterminants, nombre grammatical, temps, aspect, modalité, etc.), (iii) des questions d’interface syntaxe-sémantique comme l’interprétation des pluriels, la portée relative des quantificateurs, l’interprétation de l’ellipse et des anaphores et la relation entre la sémantique lexicale et la structure argumentale syntaxique, et (iv) de la part qui revient à l’intégration de diverses dimensions de sens dans le calcul du contenu d’une phrase ou d’un texte comme la présupposition, les inférences pragmatiques, ou la dimension émotive ou évaluative. Depuis plusieurs décennies, une grande partie des sémanticiens dans le monde modélise le sens en utilisant la théorie des modèles issue de la logique et de la sémantique des langages formels, dans laquelle la notion centrale est celle de conditions de vérité (en première approximation, le sens d’un énoncé est assimilé à l’ensemble des situations possibles dans lesquelles l’énoncé est vrai). Un développement important a consisté à passer des modèles vériconditionnels à des approches dynamiques permettant une intégration de la sémantique de la phrase et du discours. L’approche vériconditionnelle a également été enrichie pour rendre compte de l’interprétation des énoncés non-déclaratifs (interrogatifs, impératifs).

On constate notamment dans le paradigme de la sémantique formelle des ouvertures importantes conduisant à l’intégration (i) d’aspects discursifs et dialogiques, en général dans le cadre d’approches dynamiques du sens, avec un intérêt accru pour la modélisation du sens des phrases non-déclaratives en contexte, des actes de langage autres que l’assertion, et de marqueurs discursifs et dialogiques ; (ii) de la dimension sociale de la construction de la signification, avec des travaux qui utilisent à la fois des méthodes formelles et celles de la sociolinguistique ; (iii) d’approches empiriques nouvelles, et ceci dans les deux domaines que constituent le travail sur les grands corpus et les expériences psycho-, voire neurolinguistiques ; (iv) de données provenant de domaines nouveaux, en particulier les langues des signes, qui fournissent un terrain particulièrement propice à l’exploration des contraintes sémantiques universelles sur des phénomènes de deixis, d’attitudes propositionnelles, d’ellipse, d’anaphore, des gestes co-verbaux ou pro-verbaux et, au-delà du langage, de la musique.

La sémantique connaît actuellement un renouvellement important, la conduisant à adopter certaines des méthodes et des concepts de l’informatique et de la psychologie cognitive. On note aussi le rôle nouveau que prennent les approches distributionnelles fondées sur les méthodes d’apprentissage automatiques, qui s’appuient en particulier sur l’apprentissage profond au moyen de réseaux de neurones. Notons également l’émergence de théories probabilistes de la sémantique et de la pragmatique, modélisant l’interprétation comme un processus de raisonnement sous incertitude via des méthodes fréquemment utilisées dans les sciences cognitives et l’intelligence artificielle pour traiter la perception, le raisonnement et la construction des concepts.

Bien que le français, les langues romanes, l’anglais, l’allemand, les langues slaves et les langues signées fournissent le gros des données, les recherches en sémantiques portent aussi sur des langues typologiquement variées comme le basque, les langues créoles ou les langues d’Asie orientale.

Unités de recherche : CRLAO (UMR8563), IJN(UMR8129), IKER (UMR5478), IRIT (UMR5505), L2C2 (UMR5304), LABRI (UMR5800), LACITO (UMR7107), LATTICE (UMR8094), LLACAN (UMR8135), LLF (UMR7110), LLING (UMR6310), LORIA (UMR7503), LPL (UMR7309), LSCP (UMR8554), SFL (UMR7023).

C. Pragmatique

L’interprétation d’une phrase ou d’un discours, dans un contexte donné, dépend à la fois de sa signification linguistique littérale (déterminée par le sens des mots qui y apparaissent et par la structure syntaxique), de certains paramètres du contexte, et des inférences que les interlocuteurs dérivent au sujet de l’état épistémique du locuteur et de ses intentions communicatives.

La pragmatique s’intéresse d’une part à tous les aspects contextuels de la signification linguistique. Nombre d’expressions et constructions reçoivent leur contenu du contexte. Les exemples les plus évidents sont les pronoms, les démonstratifs, ou prédicats gradables, mais l’importance du contexte dans l’assignation d’un contenu aux expressions est en réalité extrêmement générale. De plus, les énoncés ont non seulement des conditions de vérité, mais aussi des conditions d’usage qui font référence au contexte, conditions qui font souvent partie du sens proprement linguistique des expressions – présuppositions lexicales, notamment. Au-delà, la pragmatique s’intéresse à tous les aspects conventionnels de la signification qui ne se réduisent pas aux conditions de vérité, parfois rangés dans la rubrique des « implicatures conventionnelles ». D’autre part, la pragmatique s’intéresse à la dimension inférentielle de l’interprétation. Elle cherche à comprendre la manière dont les interlocuteurs enrichissent le sens proprement linguistique pour interpréter les énoncés dans leur contexte en raisonnant sur les intentions des interlocuteurs – phénomènes d’implicatures conversationnelles.

Les recherches en pragmatique se développent selon deux directions principales, qui sont souvent combinées : une direction formelle, et une direction expérimentale. La première direction, celle de la pragmatique formelle, est généralement menée de concert avec les travaux en sémantique formelle et en sémantique du discours, et vise à produire des modèles explicites des phénomènes de dépendances contextuelles (pronoms, présuppositions, implicatures conventionnelles), au moyen de formalismes inspirés par la logique, et plus récemment, au moyen de modèles probabilistes bayésiens ou relevant de la théorie des jeux. La seconde direction relève de la psychologie cognitive en particulier de la psychologie du raisonnement et de la cognition sociale, et comprend aussi une dimension développementale (étude du développement des capacités pragmatiques chez les enfants). Une partie des travaux conduits en pragmatique expérimentale vise aussi à tester les prédictions des modèles formels ou à dégager les mécanismes cognitifs sous-jacents aux généralisations dégagées par les linguistes. Les méthodes employées incluent notamment l’électro-encéphalographie et les méthodes comportementales.

Unités de recherche : ATILF (UMR7118), CLLE (UMR5263), CRLAO (UMR8563), IJN (UMR8129), IRIT (UMR5505), L2C2 (UMR5304), LLF (UMR7110), LPL (UMR7309), LSCP (UMR8554), SFL (UMR7023).

D. Discours, texte et dialogue

Les recherches sur le discours, les textes et le dialogue concernent les approches linguistiques portant sur la structure et le contenu de productions plus longues qu’une phrase, et incluant souvent la multidimensionnalité et la multimodalité. Une hypothèse commune aux travaux dans ce domaine est l’idée que ces productions ne sont pas seulement des suites de phrases ou d’énoncés, et que leur contenu n’est pas seulement une conjonction ou une intersection des valeurs sémantiques de ces phrases.

Au sein de l’analyse du discours, la linguistique interactionnelle s’intéresse plus spécifiquement à l’analyse et à la modélisation de processus cognitifs mis en œuvre dans les interactions communicatives finalisées. L’interaction y est conçue comme la forme fondamentale de sociabilité, de contexte de raisonnement pratique ainsi que le lieu d’émergence et de stabilisation de la grammaire. Elle peut dès lors contribuer à l’élaboration d’une démarche théorique et méthodologique apte à rendre compte de l’émergence de la cognition et de la connaissance, dans et par le dialogue. Les interactions analysées sont situées dans des contextes sociaux spécifiques (éducatifs, commerciaux, médicaux, etc.) ou médiées par ordinateur. L’un des enjeux forts de ces recherches est de documenter la dimension multimodale des interactions à distance. Avec l’explosion de la société de l’information, l’analyse du discours prend, théoriquement et empiriquement, une nouvelle dimension autour de l’étude des médias sociaux et des usages médiés de la langue, avec de nombreuses ramifications applicatives.

L’analyse de discours produit des analyses formelles de l’interaction dialogique capables de capter de manière précise les aperçus empiriques de la linguistique interactionnelle et de la psychologie cognitive, notamment en collaboration avec le TAL pour créer des systèmes de dialogue parlés comme les assistants vocaux. Les efforts se sont aussi concentrés sur l’interaction entre approches computationnelles (méthodes statistiques d’apprentissage automatique ; méthodes hybrides utilisant à la fois des méthodes symboliques et statistiques) et études formelles de la structure et du contenu du discours (SDRT, RST, DLTAG).

Le développement récent des initiatives de normalisation et d’échange de corpus textuels, oraux et vidéo, des systèmes pour leur annotation linguistique et sémiotique et enfin leur instrumentation informatique, permet à l’analyse du discours de se développer autant dans sa dimension descriptive, comparative et théorique, en lien avec des sous-disciplines des sciences du langage telles que la linguistique cognitive ou la sociolinguistique, et des sous-disciplines en dehors des sciences du langage, en lien avec les sciences cognitives, la psychologie, la théorie littéraire et les sciences sociales pour la modélisation des paramètres sociaux-cognitifs impliqués dans l’acte communicationnel.

Unités de recherche : GREYC (UMR6072), ICAR (UMR5191), IJN (UMR8129), IRIT (UMR5505), LATTICE (UMR8094), LLF (UMR7110), LORIA (UMR7503), LPL (UMR7309), PRAXILING (UMR5267), SeDyL (UMR8202).

E. Philosophie du langage

La philosophie du langage se rattache à la philosophie analytique, à la sémantique et à la logique, tout en ayant une forte préoccupation pour des thématiques pragmatiques et sémantiques, principalement liées à la communication implicite.

Parmi les questions linguistiques qui font l’objet de recherches actives en philosophie du langage, on compte l’indexicalité, les attitudes propositionnelles (concepts correspondant aux verbes croire, penser, savoir, vouloir, etc.), l’intensionnalité et l’hyperintensionnalité, le vague, l’interprétation des énoncés conditionnels, la sémantique des termes dépréciatifs comme les insultes et des termes évaluatifs.

L’intérêt pour la communication implicite a contribué de façon cruciale au débat sur le contextualisme qui concerne la détermination de la frontière entre sémantique et pragmatique dans l’interprétation des énoncés et également sur les dimensions expressives (non propositionnelles) de la signification linguistique. Par ailleurs, la philosophie du langage a développé des travaux sur les rapports entre langage et pensée, sur la référence et les fichiers mentaux, sur le rôle de la perspective dans la production des énoncés, ou sur de nouvelles approches du vague articulant modèles psychologiques, logiques et probabilistes. Elle s’intéresse aussi aux liens entre langage et ontologie, et à la clarification des concepts, en s’appuyant sur les résultats de la sémantique linguistique.

Unités de recherche : Archives Poincaré (UMR7117), CLLE (UMR5263), IJN (UMR8129), IHPST (UMR8590), L2C2 (UMR5304), MoDyCo (UMR7114), SFL (UMR7023), STL (UMR8163), SND (UMR8011).

III. Évolution du langage, typologie et diversité des langues, linguistique historique et comparative, sociolinguistique, contact de langues et dialectologie

A. Évolution du langage

L’évolution du langage est une question par nature profondément interdisciplinaire, à la frontière de la biologie, de la paléoanthropologie, des sciences du langage et de la psychologie comparée. On peut distinguer deux grands types d’approches parmi les théories actuelles sur l’évolution du langage. Il y a, d’une part, des approches fondées sur la simulation informatique de processus comme la création de conventions lexicales, l’étude des conditions nécessaires à l’évolution de la coopération (souvent jugée comme indispensable à l’apparition du langage) ou les limites de la communication holistique qui rendent indispensable la double articulation pour un système de communication productif, comme l’est le langage. Ces approches sont souvent basées sur la théorie des jeux. Il y a, d’autre part, des approches de nature plus théorique et interdisciplinaire, qui cherchent à identifier les spécificités structurelles du langage utilisé dans la communication humaine et ce qui lui est propre par rapport aux systèmes de communication animale (psychologie comparée). Ces spécificités liées aux capacités cognitives et culturelles humaines permettent de dégager des scénarios pour l’évolution du langage. Ce courant se base sur la psychologie cognitive, les neurosciences, la psychologie comparée, la paléoanthropologie, l’anthropologie, la simulation informatique et les sciences du langage.

Unités de recherche : DDL (UMR5596), ISCMJ (UMR5229), L2C2 (UMR5304), LSCP (UMR8554), GIPSA-lab (UMR5216).

B. Typologie et diversité des langues

La typologie linguistique étudie la diversité de traits linguistiques attestés à travers les langues du monde ainsi que leur variation et leur évolution dans le temps. Elle porte sur tous les niveaux : phonétique, phonologique, prosodique, morphologique, syntaxique, sémantique, discours, contact de langues, etc. La typologie s’intéresse aussi à la description de langues peu étudiées, dans des perspectives variées : fonctionnaliste, linguistique théorique, etc.

La description typologique des langues est aussi liée à un courant en pleine expansion, celui de la documentation linguistique qui met l’accent sur le recueil et l’archivage pérenne de données linguistiques riches, permettant de préserver un témoignage des langues menacées et d’assurer leur disponibilité pour d’éventuelles descriptions futures. Une autre tendance récente est l’adoption d’approches typologiquement informées par la philologie et la linguistique historique.

Si les bases de données qui recensent les propriétés d’un nombre de langues du monde relativement grand, comme World Atlas of Language Structures, ont marqué la typologie dans les années 2000, leurs limites ont mené au développement de nouvelles approches, fondées sur des bases de données plus réduites mais mieux maîtrisées. Sur le plan méthodologique, la typologie des langues est confrontée aux problèmes inhérents du recensement de phénomènes linguistiques à travers des grammaires rédigées par divers auteurs et à différents moments de l’histoire de la discipline. En réponse à ces difficultés, les nouvelles grammaires tendent à être associées à des corpus de données orales et écrites. De nombreux travaux sont fondés sur des questionnaires typologiques associés à des stimuli conçus pour l’étude de phénomènes spécifiques tout en étant culturellement adaptés aux différentes populations à travers le monde (e.g. stimuli vidéo). On note d’autre part un renouvellement dans le domaine de la typologie quantitative qui s’appuie de plus en plus sur des modèles statistiques sophistiqués et une intensification des collaborations avec l’anthropologie moléculaire, les neurosciences ou la géographie.

Unités de recherche : CRLAO (UMR8563), DDL (UMR5596), IJN (UMR8129), IKER (UMR5378), LACITO (UMR7107), LLACAN (UMR8135), LLF (UMR7110), LLING (UMR6310), LLL (UMR7270), Mondes iranien et indien (FRE2018), SFL (UMR7023), SeDyL (UMR8202).

C. Linguistique historique et comparative

L’étude de l’évolution des langues à travers le temps et des parentés entre les langues est l’une des branches les plus anciennes de la linguistique. Les théories sur le changement linguistique, les méthodes de reconstruction et de classification des langues, et les hypothèses sur les différentes familles de langues, si elles ont progressé au fil des découvertes et des croisements avec la linguistique générale, la géographie linguistique et la sociolinguistique, sont restées stables depuis le xixe siècle, et font ainsi de la linguistique historique et comparative un domaine remarquablement cumulatif et unifié au sein de la linguistique. Les recherches en comparatisme se situent à l’interface avec la linguistique de la diversité et la typologie des langues et sont souvent menées par des linguistes de terrain sur des familles de langues diverses.

La linguistique historique et comparative connaît ces dernières années des avancées nouvelles grâce à une grande ouverture à l’interdisciplinarité. Les travaux sur les classifications des langues ont progressé et ont connu un renouveau grâce à l’apport des méthodes phylogénétiques computationnelles utilisées en biologie. En outre, les collaborations entre linguistes, archéologues et généticiens ont permis des avancées importantes sur l’histoire des populations humaines, de leurs mouvements, et de leurs interactions. La linguistique historique et comparative bénéficie également du développement des humanités numériques, de la numérisation de corpus écrits de nombreuses langues anciennes et de la mise à disposition de bases de données sur les langues qui facilitent le test et la réplicabilité des hypothèses, et permettent d’appliquer des méthodes statistiques et computationnelles. La création de bases de données comparatives et étymologiques en ligne, augmentées et améliorées de façon continue permettent de dépasser les limites imposées par les dictionnaires traditionnels. Les études sur la grammaticalisation et les bases cognitives des changements grammaticaux et sémantiques continuent à jouer un rôle important qui dépasse les frontières de la linguistique historique. D’autres avancées ont lieu grâce aux interactions mutuellement bénéfiques avec les autres domaines de la linguistique comme entre autres la sociolinguistique, les études sur les créoles, la linguistique aréale et de contact, la typologie, ou encore la linguistique formelle.

Dans les prochaines années, on peut prévoir que la linguistique historique et comparative va continuer son ouverture vers l’utilisation de modèles statistiques et computationnels, ainsi que l’informatisation de ses méthodes de comparaison et de reconstruction, tout en continuant à jouer un rôle majeur dans les travaux interdisciplinaires sur l’histoire des populations. En revanche, le rapide déclin de l’étude des langues classiques dans l’enseignement français fait peser une menace sur les recherches sur les langues indo-européennes, alors qu’il s’agit de la famille de langues dont l’étude a donné naissance à la linguistique historique et comparative, et que la France a une longue tradition d’excellence dans ce domaine par ailleurs en fort développement à l’international.

Unités de recherche : ATILF (UMR7118), CRLAO (UMR8563), DDL (UMR5596), LACITO (UMR7107), LATTICE (UMR8094), LLACAN (UMR8135), LLF (UMR7110), Mondes iranien et indien (FRE2018).

D. Sociolinguistique, contact de langues et dialectologie

La sociolinguistique est aujourd’hui une discipline au caractère multipolaire qui regroupe des recherches développées selon une grande diversité d’approches théoriques et méthodologiques. L’intérêt commun à tous les chercheurs de ce domaine porte sur les dimensions sociales des pratiques et des usages linguistiques à tous les niveaux des systèmes (prosodique, phonologique, syntaxique, discursif, etc.), qu’il s’agisse de langues orales ou signées. Par exemple, certaines recherches plus généralement consacrées à l’étude des systèmes sonores, approfondissent des aspects spécifiques pertinents pour la sociolinguistique tels que la sociophonétique et la sociophonologie ou l’étude de la voix genrée.

Au sujet des langues des signes, les recherches ont montré depuis au moins deux décennies, que les dynamiques de la variation sociolinguistique, du contact et du plurilinguisme sont tout à fait similaires dans les communautés des sourds et des entendants. Pour cette raison, certains laboratoires spécialisés dans les langues des signes intègrent ainsi la dimension sociolinguistique dans le cadre de projets d’équipe ou de recherches individuelles.

Dans le domaine de la sociolinguistique, les données observables étant recueillies de préférence sur le terrain, le travail d’enquête est central, sans pour autant négliger les productions écrites, dans le cadre d’une sociolinguistique des textes allant, par exemple, des biographies migratoires aux écritures « exposées » dans les contextes urbains, ou encore aux productions des internautes. Les documents écrits sont aussi la source fondamentale de la sociolinguistique historique — approche encore en évolution en France — qui prend en compte la composante sociale dans l’étude diachronique des usages attestés dans des textes proches de l’oralité (par exemple, textes anciens écrits par des personnes peu lettrées, documents comptables, autobiographies, témoignages de procès).

La constitution de corpus surtout oraux, d’ampleur différente, constitue un enjeu important pour les sociolinguistes et notamment pour ceux qui se consacrent au milieu urbain, observatoire privilégié de la diversité et du contact aux niveaux socioculturel et linguistique. Dans cette direction, il faut mentionner, la mise en place de grands corpus variationnistes de sociolinguistique urbaine : ESLO-Enquêtes Sociolinguistiques à Orléans, corpus prototypique hébergé sur Huma-Num ; Multicultural Paris French (MPF), relatif aux « parler jeune » de la région parisienne ; bases de données sonores qui rendent compte de la situation sociolinguistique de Toulouse et de Marseille ; etc. D’autres corpus sont enregistrés dans des situations plus variées, notamment professionnelles.

Dans le cadre de la sociolinguistique variationniste, l’approche quantitative est prise en compte en fonction de la modélisation formelle et computationnelle des théories sociolinguistiques ou en fonction des recherches en sociolinguistique développementale en direction aussi d’un croisement avec les sciences cognitives.

La dimension du contact de langues et les enjeux du plurilinguisme ont une position centrale dans les recherches sociolinguistiques : c’est le cas de nombreux chercheurs et laboratoires qui se consacrent aux espaces des « pays des Suds », aux langues régionales, aux langues des signes ou encore au plurilinguisme et à l’interculturalité ainsi qu’au contact en contexte migratoire. L’émergence de variétés de contact et, en particulier, de créoles et de pidgins constitue aussi un sujet central dont la portée dépasse les frontières de ce secteur disciplinaire pour contribuer à la réflexion sur l’origine du langage et la formation des langues.

Enfin, on note en France la consolidation du courant de la sociolinguistique critique qui est très dynamique dans le monde anglo-saxon.

En ce qui concerne la dialectologie, les recherches couvrent un éventail important de thématiques, allant de la comparaison typologique et génétique à grande échelle, dans le cadre des atlas multilingues et de grandes bases de données, des matériaux atlantographiques accumulés à partir de la fin du xixe siècle, à la contribution à la typologie des langues d’aires de frontière situées entre les grands groupes dialectaux (Croissant, Drôme provençale, etc.). En parallèle, la production des atlas linguistiques dits « régionaux » se poursuit pour couvrir les zones dont les données recueillies n’ont pas encore été cartographiées (Provence, Brie, Champagne, Corse, Pays basque) ; en même temps, d’autres atlas (publiés ou en cours) consacrés à des aires géographiquement non européennes font l’objet des recherches géolinguistiques (Cap Vert, Antilles, Polynésie française, etc.). La cartographie interprétative des phénomènes dialectaux et l’atlantographie sonore des variétés dialectales se développent aussi, grâce à des collaborations interdisciplinaires de plus en plus fortes entre dialectologues et chercheurs en informatique et en géomatique.

Les recherches en sociolinguistique et contact des langues contribuent aussi activement à l’élaboration de propositions et de solutions dans le cadre de l’éducation plurilingue, de l’interculturalité, de la standardisation linguistique et des politiques linguistiques adoptées dans un territoire par rapport à la gestion institutionnelle ou associative de l’insécurité langagière ou de l’exclusion des minorités sociales. Les recherches en dialectologie apportent des connaissances à l’étude typologique des langues et participent à la réflexion sur la politique institutionnelle au sujet de la préservation du patrimoine linguistique et culturel.

Unités de recherche : ATILF (UMR7118), BCL (UMR7320), CHLESTIA (EA7345), CLLE (UMR5263), DDL (UMR5596), DIPRALANG (EA739), DYLIS (EA7474), GIPSA-lab (UMR5216), ICAR (UMR5191), ICARE (EA7389), IKER (UMR5478), IREMAM (UMR7310), LACITO (UMR7107), LIDILEM (EA609), LILPA (EA1339), LIMSI (UPR3251), LISA (UMR6240), LLACAN (UMR8135), LLF (UMR7110), LLL (UMR7270), LPL (UMR7309), LPP (UMR7018), MoDyCo (UMR7114), PRAXILING (UMR5267), PREFICS (EA7469), SAPRAT (EA4116), SeDyL (UMR8202), SFL (UMR7023).

IV. Psycholinguistique et neurolinguistique, acquisition du langage

A. Psycholinguistique et neurolinguistique

La psycholinguistique et la neurolinguistique visent à décrire et à analyser (i) les mécanismes cognitifs qui permettent de produire et comprendre le langage au sens large et (ii) les représentations mentales et cérébrales du langage chez des individus présentant ou non une pathologie. Ces recherches recourent aux méthodes comportementales et psychophysiques (e.g., chronométrie mentale, oculométrie, enregistrements articulatoires et acoustiques), aux méthodes électrophysiologiques, aux méthodes d’imagerie cérébrale (IRMf, TMS, NIRS) et à la modélisation computationnelle. Beaucoup de travaux sont réalisés sur corpus parlés, spontanés ou non, ou encore sur corpus écrits.

Les travaux réalisés en psycholinguistique et neurolinguistique portent principalement sur le traitement du langage parlé, tant en perception qu’en production, depuis les traitements auditifs, phonétiques et phonologiques jusqu’à la syntaxe, la sémantique et la pragmatique en passant par la morphologie et l’accès au lexique. Les mécanismes de traitement du langage parlé sont étudiés en interaction avec les caractéristiques du locuteur (e.g., bilingue, multilingue, monolingue). Une place de plus en plus grande est dédiée aux études reposant sur des comparaisons inter-langues. Ces travaux visent notamment à étudier l’impact des propriétés spécifiques des systèmes linguistiques sur les mécanismes de traitement du langage. Les recherches sur le traitement du langage écrit portent notamment sur l’influence de l’orthographe sur la perception phonétique ou l’accès au lexique, sur les processus de médiation phonologique et sur l’analyse morphologique. Quelques travaux traitent plus particulièrement du lien production-perception tant au niveau du langage parlé que du langage écrit.

Une part importante de ces recherches est dédiée à l’acquisition du langage (§ IV.B) chez le nourrisson et le jeune enfant ayant un développement typique ou atypique mais aussi chez l’adulte apprenant une langue seconde. Les travaux impliquant différentes populations cliniques (dyslexie, dysphasie, individus malentendants avec ou sans implant cochléaire, maladie de Parkinson, démence de type Alzheimer, lésions cérébrales, autisme, schizophrénie) et l’impact des différentes pathologies sur les mécanismes de traitement du langage sont une autre tendance de plus en plus forte. Signalons également des travaux s’intéressant au développement de stratégies compensatoires à l’oral et à l’écrit.

Unités de recherche : BCL (UMR7320), CeRCA (UMR7295), CLLE (UMR5263), DDL (UMR5596), GIPSA-lab (UMR5216), ISCMJ (UMR5229), LLF (UMR7110), LLING (UMR6310), LPC (UMR7290), LPL (UMR7309), LPNC (UMR5105), LPP (UMR8242), LPP (UMR7018), LSCP (UMR8554), L2C2 (UMR5304), MoDyCo (UMR7114), SCALab (UMR9193), SFL (UMR7023), STL (UMR8163).

B. Acquisition du langage

Les recherches sur l’acquisition du langage se répartissent en trois grands domaines. (i) Elles portent sur les questions typiquement abordées chez l’adulte en pragmatique ou en sémantique formelle, telles que les implicatures scalaires. Ces questions sont également étudiées chez l’enfant, avec comme objectif de tracer le développement de ces phénomènes. (ii) Certains chercheurs étudient le développement de la compréhension et de la production du vocabulaire et de certaines constructions syntaxiques. Ce domaine interagit fortement avec l’étude de populations particulières comme les enfants bilingues ou les enfants souffrant de troubles du développement. Ce domaine comporte également des études de corpus. (iii) De nombreux travaux s’intéressent aux toutes premières étapes de l’acquisition du langage, chez le nourrisson de moins d’un an, y compris chez le nouveau-né quelques jours seulement après la naissance. Ces travaux tendent à insister sur les contraintes biologiques du processus d’acquisition. À noter également les interactions de plus en plus nombreuses avec d’autres champs des sciences cognitives et de la linguistique. Outre les interactions déjà anciennes avec les phonologues et les phonéticiens, on note une ouverture en direction de la sémantique formelle, de la modélisation informatique et de la primatologie (comparaisons des capacités d’apprentissage du nourrisson ou du jeune enfant avec d’autres espèces de primates non-humains).

Trois enjeux principaux sont à souligner à moyen terme : (i) Les solutions à apporter à la crise de la réplication qui touche toutes les sciences expérimentales sont fortement débattues dans cette discipline. La plupart des laboratoires concernés cherchent à augmenter le nombre de sujets inclus dans leurs études, et/ou à répliquer leurs principaux résultats. Certains laboratoires mettent également en place des protocoles de pré-enregistrement de leurs études. Ces efforts sont encourageants. (ii) Les interactions du domaine de l’acquisition du langage avec d’autres domaines des sciences cognitives s’intéressant aux représentations sémantiques et conceptuelles se développent. Ces disciplines ont fortement évolué ces dernières années, notamment grâce à l’apport des neurosciences. (iii) Les résultats de recherche fondamentale sont traduits en outils diagnostiques ou interventionnels à destination des enfants souffrant de retards ou troubles linguistiques.

Unités de recherche : CeRCA (UMR7295), DDL (UMR5596), GIPSA-lab (UMR5216), ISCMJ (UMR5229), LLING (UMR6310), LPC (UMR7290), LPL (UMR7309), LPNC (UMR5105), LPP (UMR8242), LSCP (UMR8554), L2C2 (UMR5304), MoDyCo (UMR7114), PRAXILING (UMR5267), SFL (UMR7023), STL (UMR8163).

V. Traitement automatique du langage naturel et linguistique informatique, linguistique de corpus, histoire de la linguistique

A. Traitement automatique du langage naturel et linguistique informatique

Le traitement automatique des langues (TAL) et la linguistique informatique (LI) traitent de la modélisation informatique des langues humaines, aussi dites « langues naturelles ». Bien que la frontière entre LI et TAL ne soit pas étanche et que ces deux sous-disciplines partagent souvent les mêmes outils et les mêmes supports et lieux de dissémination, elles poursuivent des objectifs différents. Ainsi, la LI se focalise avant tout sur la mise en œuvre de méthodes mathématiques et informatiques pour répondre à des questions de linguistique, notamment en ce qui concerne la nature des connaissances et des représentations linguistiques, leur acquisition et leur déploiement dans la compréhension et la production du langage. Le TAL, en revanche, est davantage tourné vers les applications (extraction d’informations, traduction automatique, systèmes de question-réponse, agents conversationnels, etc.), en cherchant à résoudre des problèmes d’ingénierie qui requièrent l’analyse ou la génération de texte en langue naturelle.

Traditionnellement, une grande part des recherches à l’intérieur de ces domaines est structurée autour des différents niveaux d’analyse linguistique : alignement texte/parole ; étiquetage morphosyntaxique ; l’analyse syntaxique (en constituants ou en dépendances) ; résolution des anaphores et des coréférences ; inférence entre phrases ; étiquetage des tours discursifs ; etc. En TAL, cette perspective est néanmoins remise en cause par le développement d’approches dites end-to-end très performantes pour des applications telles que la traduction automatique qui font l’économie de toute analyse linguistique intermédiaire.

Les dernières décennies ont vu des changements de paradigmes importants dans le TAL, avec des implications sur la recherche en LI. Le TAL, comme d’autres domaines relevant de l’Intelligence Artificielle (IA), connaît en effet un effacement progressif des approches symboliques (e.g., approches logiques, systèmes à base de règles) au profit des approches basées sur des algorithmes d’apprentissage automatique, elles-mêmes rendues possibles par la disponibilité croissante de jeux de données permettant l’évaluation quantitative des systèmes. Au sein de ce courant, les approches par réseaux de neurones profonds, sous la forme de réseaux convolutifs (CNN) ou récurrents (RNN), occupent à présent une place dominante, ayant permis des avancées significatives sur de nombreuses tâches de TAL classiques. Une partie de leurs bonnes performances vient de la construction automatique, sur de larges quantités de textes, de représentations vectorielles de faible dimension, notamment des word embeddings, qui permettent de s’affranchir de la recherche « manuelle » de bons descripteurs. S’appuyant sur ce type de représentations distribuées, de nouvelles architectures ont aussi vu le jour et trouvent des applications en TAL, tels que les modèles à mémoire, basés sur des mécanismes d’attention, en vue de mieux modéliser les dépendances à longue distance, les approches neuronales par renforcement, les modèles profonds génératifs tels les auto-encodeurs variationnels ou les réseaux antagonistes génératifs (GAN).

Malgré les promesses ouvertes par les réseaux de neurones profonds, ceux-ci souffrent de certaines limitations importantes, en particulier la nécessité de disposer de volumes de données très importants, leur tendance à sur-apprendre, et la difficulté voire l’impossibilité d’interpréter leurs prédictions (i.e., leur côté boîte noire). Le développement d’approches neuronales moins voraces en données, applicables à des langues peu dotées, et se prêtant à une plus grande explicabilité figurent parmi des défis majeurs pour les prochaines années.

De manière plus générale, ces transformations vont de pair avec un rapprochement important entre les communautés TAL et apprentissage automatique, qui n’est pas sans poser de sérieuses questions sur ce qui fait la spécificité et l’autonomie réelle du TAL comme champ de recherche. Ces mutations se caractérisent aussi par une prise de distance, voire une remise en question des niveaux de représentations postulés par les linguistes théoriques, notamment dans les architectures end-to-end. Ce type de remise en question est de nature à fournir de nouvelles pistes de recherche en LI, voire à d’autres domaines connexes comme la psycholinguistique et la neurolinguistique. Enfin, la dépendance des approches actuelles aux corpus pose des questions d’ordre éthique, notamment à cause des biais qu’ils contiennent, et de la manière dont ces biais sont repris, voire amplifiés, par des systèmes entraînés sur ces corpus.

Sur le plan économique et sociétal, le domaine du TAL est porteur de développements industriels importants, permettant notamment la conception d’agents conversationnels multimodaux, l’accès aux connaissances dans les données textuelles (utiles notamment pour d’autres domaines de recherche en sciences humaines et sociales), ou la préservation du patrimoine linguistique et culturel. Globalement, la demande dans le domaine du TAL ne cesse de croître dans le monde. Les offres de postes, dans les centres de recherche publics et privés (e.g., Google, Microsoft, Facebook, Amazon) comme dans l’industrie, augmentent aussi et les technologies de l’ingénierie linguistique deviennent un enjeu majeur pour traiter des données langagières en isolation et en interaction avec d’autres modalités. L’implantation récente de laboratoires de recherche de grandes entreprises, en particulier Google et Facebook, à Paris, offre des opportunités intéressantes au TAL français dans les prochaines années, en même temps qu’il constitue un risque de voir partir ses meilleurs éléments. Plus généralement, la place prépondérante des laboratoires privés au sein du TAL, compte tenu des avantages dont ceux-ci disposent en termes de puissance de calcul et d’efforts de développement, nous engage à repenser le rôle de la recherche publique dans ce domaine.

Unités de recherche : CLLE (UMR5263), CRIStAL (UMR9189), IRISA (UMR6074), IRIT (UMR5505), LATTICE (UMR8094), LIA (EA4128), LIMSI (UPR3251), LIPN (UMR7030), LIS (UMR7279), LORIA, (UMR7503), LPL (UMR7309), LS2N (UMR6004), MoDyCo (UMR7114), PRAXILING (UMR5267), STL (UMR8163).

B. Linguistique de corpus

L’usage des corpus en linguistique a connu un développement continu, qu’il s’agisse (i) de réunir les matériaux nécessaires à la description de langues peu documentées, (ii) d’établir sur le modèle du BNC anglais ou du FOLK allemand un corpus de référence pour le français, les dialectes et les langues de France, (iii) de disposer de données de première main sur des questions spécifiques (acquisition et pathologies du langage, apprentissage d’une langue étrangère, variation phonologique, néologie, tests cognitifs, etc.) ou (iv) de construire scientifiquement les données nécessaires aux traitements informatiques et aux applications dans les industries de la langue. Dans chacun de ces domaines, des résultats appréciables ont été obtenus qui assurent à la recherche française, notamment au sein du CNRS, une place au meilleur niveau international.

L’épreuve des hypothèses sur la structure des langues et leurs usages a été transformée par le recours à de grandes masses de données et l’exploitation de données orales. La fiabilité des transcriptions (conventions de notation, alignement sur le signal), la traçabilité par les métadonnées, l’assurance d’une disponibilité juridique et informatique, la conservation de la ressource initiale et de ses enrichissements ont mis en évidence la nécessité d’un process sous forme d’une chaîne de traitements contrôlés à chaque étape, robustes, libres de droit et pérennes.

Les unités de recherche ont à leur disposition les moyens technologiques et l’expertise de la TGIR Huma-Num (à travers le consortium CORLI / Corpus Langues Interactions), des plateformes comme COCOON (Collection de Corpus Oraux Numériques) et les relais dans les MSH. Sont venus en renfort, dans le cadre des Investissements d’Avenir, l’Equipex ORTOLANG (Open Resources and Tools for Language), et du côté du Ministère de la Culture les aides de la Délégation Générale à la Langue Française et aux Langues de France et le catalogage et l’hébergement assurés par la BnF.

Le recours aux corpus – qui constituent un élément fort d’identification des unités de recherche – est aujourd’hui intégré dans la pratique des chercheurs. D’un côté, la compréhension des enjeux de la collecte et l’interprétation des productions langagières impliquent une collaboration avec l’anthropologie et les sciences sociales ; de l’autre, entre les activités de modélisation et de formalisation et la constitution et l’analyse des données, l’interface avec le TAL et l’IA, transgresse les frontières disciplinaires.

Trois défis majeurs sont à relever. Le premier est la pérennité de la conservation des données dont la croissance (et donc les coûts de maintenance) est exponentielle. Le deuxième est la préservation de la capacité à développer une recherche publique dans un domaine où les applications commerciales conduisent à des investissements financiers considérables de la part de grandes entreprises (e.g., Google, Facebook, Amazon). Le troisième est le développement des réseaux d’échange internationaux en commençant par un engagement résolu dans les infrastructures européennes, Dariah et Clarin.

Unités de recherche : ATILF (UMR7118), BCL (UMR7320), CLLE (UMR5263), DDL (UMR5596), GIPSA-lab (UMR5216), ICAR (UMR5191), IKER (UMR5478), IRIT (UMR5505), LACITO (UMR7107), LATTICE (UMR8094), LIMSI (UPR3251), LLACAN (UMR8135), LLL (UMR7270), LPL (UMR7309), MoDyCo (UMR7114), PRAXILING (UMR5267), STL (UMR8163).

C. Histoire de la linguistique

L’étude réflexive des conceptualisations de la linguistique, appréhendées dans leur dimension historique, se réalise de trois façons : (i) soit elle participe de la mise en perspective de travaux contemporains qui sont saisis comme le résultat d’un progrès dans la discipline et elle tend alors à se confondre avec le domaine d’application, à l’intérieur d’unités de recherche qui n’en font pas un domaine d’élection ; (ii) soit elle restitue les travaux de phonétique, de lexicographie ou de grammaire d’écoles qui se sont développées en dehors de la tradition occidentale (écoles sanskrites, arabes, chinoises, etc.), au sein d’équipes qui se consacrent à l’analyse des langues qui ont forgé ou emprunté ces écritures ; (iii) soit elle s’attache à la dimension proprement historique des théories, une spécialité représentée par HTL, quelles que soient la langue ou la période, de l’Antiquité à aujourd’hui, alors qu’ITEM s’est progressivement désengagée de ces problématiques. On ne peut que regretter la désaffection notable qui existe pour ces études. Une certaine amnésie du temps long dans des travaux dont les enjeux sont contenus à l’intérieur de bibliographies limitées aux années immédiatement antérieures à la publication conduit à l’éviction de la réflexion critique et à la reprise d’hypothèses qui n’ont pas bénéficié d’un véritable renouvellement méthodologique.

Unités de recherche : HTL (UMR7597), ITEM (UMR8132), Mondes iranien et indien (FRE2018).

VI. Chercheurs et ITA

A. Chercheurs

1. Effectifs de la section

La section 34 « Sciences du langage » regroupe 180 chercheurs (hors détachements de longue durée et éméritats), ce qui représente environ 1,5 % de l’ensemble des chercheurs CNRS. Les chercheurs rattachés à la section 34 et à l’InSHS représentent 7,8 % de l’ensemble des chercheurs de l’InSHS. 5 chercheurs sont également rattachés à une autre section (section 7 « Sciences de l’information : signaux, images, langues, automatique, robotique, interactions, systèmes intégrés matériel-logiciel » et CID 53 « Méthodes, pratiques et communications des sciences et des techniques »).

2. Profil des chercheurs

La majorité (55 %) des chercheurs de la section 34 sont des femmes. Cet avantage numérique en faveur des femmes se retrouve dans les différents corps (CR et DR) et grades, sauf dans le grade DR2, où les hommes et les femmes sont en effectifs quasi égaux. Rien n’indique donc que la parité hommes/femmes pose problème dans cette section.

L’âge moyen des chercheurs est de 48,7 ans et l’âge médian de 48 ans. L’âge moyen est sensiblement identique chez les hommes (48,5 ans) et les femmes (48,9 ans).

Par corps :

Corps Genre n % Âge moyen Âge moyen au recrutement
CR F 63 56,2 46,3 33,5
CR M 49 43,8 46,5 34,8
CR tous 112 100,0 46,4 34,0
DR F 36 52,9 53,5 33,9
DR M 32 47,1 51,6 33,5
DR tous 68 100,0 52,6 33,7
tous F 99 55,0 48,9 33,6
tous M 81 45,0 48,5 34,3
tous tous 180 100,0 48,7 33,9

Par grade :

Corps Genre n % Âge moyen Âge moyen au recrutement
CRCN F 56 55,4 45,3 33,6
CRCN M 45 44,6 45,8 34,6
CRCN tous 101 100,0 45,5 34,0
CRHC F 7 63,6 54,0 32,6
CRHC M 4 36,4 54,8 36,8
CRHC tous 11 100,0 54,3 34,1
DR2 F 24 49,0 51,1 32,5
DR2 M 25 51,0 51,6 34,3
DR2 tous 49 100,0 51,4 33,4
DR1 F 11 64,7 59,1 36,3
DR1 M 6 35,3 50,0 30,7
DR1 tous 17 100,0 55,9 34,3
DRCE F 1 50,0 49,0 41,0
DRCE M 1 50,0 60,0 32,0
DRCE tous 2 100,0 54,5 36,5



L’âge moyen au moment du recrutement pour 2015-2019 est de 36,6 ans (36,8 ans chez les hommes et 36,5 ans chez les femmes). Il convient de noter que l’âge moyen au moment du recrutement a augmenté de presque 8 ans sur les trente et quelques dernières années.

3. Localisation et répartition dans les unités de recherche

Plus de la moitié (52,2 %) des chercheurs sont affectés dans la région Île-de-France. En y ajoutant les régions Auvergne-Rhône-Alpes et Provence-Alpes-Côte d’Azur, on atteint 78,9 % des effectifs de la section.

Les chercheurs de la section 34 sont répartis dans 48 unités, dont 29 sont rattachées à la section (22 à titre principal). À l’inverse, parmi les 48 unités rattachées à la section 34, 19 unités n’ont pas actuellement parmi leurs effectifs de chercheur rattaché à la section. Les 10 unités rassemblant au total plus de la moitié des chercheurs de la section 34 sont les suivantes :

Unité %
Laboratoire parole et langage (LPL) 8,3
Cognition, langues, langage, ergonomie (CLLE) 6,7
Langage, langues et cultures d’Afrique noire (LLACAN) 6,7
Structures formelles du langage (SFL) 5,6
Centre de recherches linguistiques sur l’Asie orientale (CRLAO) 5,0
Centre de recherche sur la langue et les textes basques (IKER) 4,4
Institut Jean-Nicod (IJN) 4,4
Laboratoire de phonétique et phonologie (LPP) 3,9
Grenoble images parole signal automatique (GIPSA-lab) 3,3
Histoire des théories linguistiques (HTL) 3,3

4. Concours

Les statistiques moyennes des concours pour la période 2017-2019 sont détaillées dans le tableau ci-dessous. Le taux d’admission est le pourcentage de postes par rapport au nombre de candidats admis à concourir par concours, le taux de pression est à l’inverse le nombre moyen de candidats par poste et par concours. Le nombre de candidats tous concours confondus et par concours diffèrent en raison de candidatures d’une même personne à plusieurs concours différents la même année et de disparités dans le nombre de candidats en fonction des concours d’un même corps.

Corps Postes Cand. tous concours Cand. par concours Admis. Press.
CR 3,0 84,7 63 5,1 20,5
DR 4,3 28,3 30 14,7 7,0

Le profil moyen des candidats peut être résumé comme suit :

Corps Genre % Âge Nb d’années après le doctorat
CR F 50,6 36,4 4,8
CR M 49,4 36,7 4,8
CR tous 100,0 36,6 4,8
DR F 45,7 46,2 15,7
DR M 54,3 47,5 14,4
DR tous 100,0 46,9 15,0

Les candidats classés admissibles avaient le profil moyen suivant :

Corps Genre % Âge Nb d’années après le doctorat
CR F 49,8 34,4 3,8
CR M 50,2 32,4 3,4
CR tous 100,0 33,5 3,7
DR F 50,9 44,6 16,6
DR M 49,1 46,5 13,6
DR tous 100,0 45,4 15,1

5. Internationalisation de la section

La forte internationalisation de la section 34 se traduit par la grande proportion de chercheurs de nationalité étrangère dans le corps des CR (46,2 %), chiffre auquel il faudrait ajouter celui des chercheurs ayant acquis la nationalité française après leur recrutement. On peut de même noter qu’en 2017, 65 % des candidats aux concours CR étaient de nationalité étrangère (Italie, Allemagne, États-Unis, Russie, etc.), et que 54,5 % étaient titulaires d’un doctorat étranger (États-Unis, Allemagne, Italie, Royaume-Uni, etc.).

B. ITA

Les UMR et USR (MSH de Nancy et Poitiers) rattachées à titre principal à la section 34 intègrent 116 agents statutaires. Il y avait 138 agents statutaires dans les unités de la section 34 en 2014. Si l’on examine plus particulièrement les UMR, elles comptent fin 2018, selon l’Observatoire des Métiers et de l’Emploi Scientifiques du CNRS, 108 ITA plus 24 agents statutaires mis à disposition par les autres tutelles, essentiellement les universités et la BNF.

Le ratio entre le personnel technique et le collège chercheur est de 15,7 % côté CNRS et de 3,5 % pour les autres tutelles, soit un agent pour 5 chercheurs ou enseignants-chercheurs (source Labintel). La répartition des personnels techniques dans les UMR, quel que soit leur organisme d’appartenance, est très inégale (cf. Figure 1) : deux unités ont un ratio personnel technique/collège chercheurs de 5 % ; sept unités sont aux alentours de 10 % ; neuf unités dépassent les 25 %. La disparité s’est accrue depuis 2014, date à laquelle la majorité des UMR comptaient au moins 20 % d’agents de soutien et de support à la recherche.

Figure 1 : Ratio personnel technique/chercheurs & enseignants-chercheurs dans les UMR en rattachement principal à la section 34 selon leur organisme d’appartenance : ITA=CNRS ; ITRF=universitaires ou BNF.

Le nombre d’ITA dans les UMR de la section est passé de 118 à 108, baissant de 10 % par rapport à 2014 (notons que le nombre d’agents en CDD, que ce soit sur des postes d’agents techniques ou de chercheurs, a lui baissé de 20 %). Le corps des IE est particulièrement touché. Il perd 20 % de ses effectifs avec pour corollaire un rajeunissement des agents dont l’âge moyen passe de 48,7 ans à 44,6 ans : on peut penser que tous les départs à la retraite n’ont pas été remplacés dans ce corps où 10 agents avaient plus de 60 ans en 2014. L’âge moyen augmentant de façon conséquente dans les corps AI, T et ATR, l’âge moyen global des ITA de la section est malgré tout plus élevé en 2018 (47,9 ans) qu’il ne l’était en 2014 (46,8 ans).

Les branches d’activité professionnelle (BAP) qui perdent le plus d’agents sont les BAP D et J : la BAP D qui regroupe les métiers spécifiques aux SHS voit ses effectifs diminuer de 20 %, alors que la BAP J dédiée aux métiers de gestion et de pilotage voit ses effectifs diminuer de 23 %. La diminution de ces effectifs étant répartie à travers les corps, le profil de répartition des agents par corps et par BAP (cf. Figure 2) reste cependant relativement stable par rapport à 2014. Dans les fonctions de soutien à la recherche (BAP C, D, E) les ITA sont en majorité des IR et des IE, alors que dans les fonctions de support (BAP F et J) ils sont en majorité AI, T ou ATR : notons que la BAP E dédiée à l’informatique et aux calculs scientifiques est la seule à avoir des représentants dans tous les corps, si l’on excepte le corps des ATR. 56 % des ITA sont des femmes. Elles sont minoritaires dans le corps des IR (43 %) et dans celui des ATR (33 %), majoritaires dans les autres corps (au-delà de 60 %).

Figure 2 : Répartition des agents ITA par corps et par BAP dans les UMR de la section 34.
BAP C : Sciences de l’ingénieur ; D : Sciences humaines et sociales ; E : Informatique, statistique et calcul scientifique ; F : Information (documentation) ; J : Gestion et pilotage.

Conclusion

La section 34 est une section dynamique, axée sur l’excellence scientifique. À côté de ses missions plus traditionnelles comme la description et la documentation des langues en danger ou la mise au point des principes et des contraintes qui gouvernent les grammaires des différents systèmes linguistiques, de nouveaux défis apparaissent, plus difficiles à appréhender, notamment en lien avec l’intelligence artificielle. L’articulation entre les résultats des sciences du langage et la didactique doit être renforcée et constitue un défi important qui devrait faire l’objet d’une réflexion.

On constate une évolution des structures qui permettent de coordonner et d’organiser le champ avec notamment le non renouvellement des fédérations ILF et TUL qui regroupaient la très grande majorité des unités de recherche en sciences du langage. Ces fédérations permettaient notamment un certain niveau de coordination et de collaboration entre ces unités pour lequel il n’existe plus de support. Dans le même temps, le GDR LIFT nouvellement créé se met en place. L’évolution passe aussi par les Labex EFL à Paris et ASLAN à Lyon qui ont tous les deux été reconduits, par l’institut de convergence ILCB à Aix-Marseille et par l’émergence des grandes universités de recherche qui sont en train de remodeler le paysage scientifique en renforçant les unités dont les travaux et les collaborations sont les plus internationalisés.

Pour finir, on peut regretter le nombre encore trop faible de grandes revues dans la discipline en comparaison de ce dont disposent des disciplines proches comme la psychologie. La diversité des recherches en sciences du langage mériterait un plus grand nombre de supports. Le rayonnement et la place de la discipline dans le paysage scientifique sont directement conditionnés par le nombre de supports de qualité dans lesquels les recherches en sciences du langage peuvent être mises en valeur.