Comment en êtes-vous venue à mêler Sciences du langage et informatique ?

Après avoir été professeure de l’Éducation nationale, j’ai choisi de faire un doctorat en Sciences du langage. Mon sujet d’étude portait sur la Grammaire et la morphosyntaxe de l’interrogation. J’avais alors envie de me concentrer sur de vraies phrases prononcées par de vrais locuteurs et de les analyser en termes de linguistique et de phonétique générale.

Afin de mener à bien mes recherches, j’ai travaillé au sein d’un laboratoire d’informatique, le LIUM, le laboratoire d’informatique de l’université du Mans. Au sein du LIUM, le travail de recherche se scinde en deux grandes catégories. Un groupe s’occupe du traitement de la parole et de la reconnaissance automatique de la parole et du traitement du locuteur. Et un autre groupe étudie les interactions homme-machine pour l’apprentissage humain. Cela concerne notamment l’e-learning par exemple. Pour ma thèse, l’appui logistique de l’informatique était bienvenu afin de m’aider à traiter un grand nombre de données auxquelles je devais faire face. Je voulais un vrai corpus avec des phrases utilisées et enregistrées.

Si je devais synthétiser la conclusion de ma thèse publiée en 2011 en quelques mots, je dirais simplement qu’on ne pose des questions qu’en fonction du type de réponses que l’on voudrait avoir. Et cela a des répercutions d’un point de vue informatique. Parce que le français possède beaucoup de variations possibles, il est nécessaire d’apprendre cette variabilité à des systèmes d’interfaces conversationnelles pour qu’ils puissent être le plus fluides en oral spontané.

C’est notamment la complexité et la richesse de notre langue qui fait que les solutions de reconnaissances vocales américaines, comme SIRI ou Alexa, ne sont pas aussi pertinentes sur la reconnaissance du français qu’on le souhaiterait.

Comment passe-t-on des Sciences du langage à l’Intelligence Artificielle ?

Après ma thèse, je suis restée au laboratoire pour continuer à travailler sur le sujet, en tant qu’ingénieure de recherche, puis, après une incursion dans l’univers des start-ups en tant que salariée, j’ai créé ma propre entreprise. J’ai pu intervenir dans la création de corpus et d’ontologies, pour des chatbots ou des IA conversationnelles plus poussées.

 

J’ai notamment travaillé pour des sociétés de transports ou de formation. Mon rôle était alors d’apprendre le maximum de variations au chatbot sur une question donnée, pour qu’il comprenne de quoi on lui parle, quel que soit le registre ou la formulation. Pourquoi c’est important ? Parce qu’en français, nous avons différentes façons de poser la même question sur un sujet donné. Et pour que le chatbot comprenne que l’on parle de formation, quelle que soit la façon dont on lui en parle, il est nécessaire de le « nourrir » de toutes ces variations.

Prenons un exemple et quelques formulations possibles :

  • Vous avez une formation en bureautique pour moi ?
  • Une formation en bureautique chez vous c’est possible ?
  • La bureautique, vous en faites ?
  • Quelle formation en bureautique est disponible chez vous ?
  • Etc.

L’idée est de lister tout ce qui sémantiquement tourne autour de la formation, et d’intégrer en plus le concept de bureautique. Cela revient à créer des ontologies, en prenant aussi en compte le cadre conversationnel.

Aujourd’hui, les Sciences du langage, les chatbots et les autres interfaces boostées à l’Intelligence Artificielle sont intimement liés. Des métiers se créent autour de la scénarisation des conversations avec des bots. Et le challenge est d’autant plus grand en France, car le français est une langue contextuelle plus que lexicale.

L’Intelligence Artificielle, un outil discriminant et sexiste ?

Un algorithme, c’est une recette de cuisine. Il fonctionne à partir de paramètres décidés par un humain. Les biais que l’on retrouve ici et là sont liés à la sélection de données réalisées par les humains en amont. Le plus souvent, ce sont donc les données ingérées qui font qu’il peut y avoir des biais sexistes. Toutefois, même si vous décidez d’être plus inclusif dans la création de votre chatbot, vous serez encore confronté à la langue, telle qu’elle est aujourd’hui. Par exemple, en français, un chaton est un chaton, on ne sait pas si c’est un mal ou une femelle.

Toutefois, la question à se poser est plutôt de savoir quelle méthode il faudrait mettre en place pour contrer les biais discriminants. Il faut déjà que les équipes de conception en aient conscience. Il s’agit aussi d’être le plus objectif possible. Pour les CV, par exemple, il m’arrive de mettre des mesures de distance, afin de voir quelle est la répartition réelle du CV masculin. Je peux alors demander à l’algorithme de sélectionner seulement 50 % de CV masculins, mais c’est un autre biais. Par contre, si vous avez 90 % de la population qui se refuse à féminiser certains noms, la machine, lorsque l’on est dans un contexte de Machine Learning, va continuer d’apprendre les masculins plus que les féminins.

Enfin, il est également essentiel dans la création des interfaces de paroles, de prendre en compte l’accent et d’apprendre au système à les reconnaitre, en fonction des variations phonétiques de Lille ou de Marseille par exemple. Il s’agit là encore de données de préparation à injecter en amont.

Aurore BISICCHIA
Aurore BISICCHIA
Conteuse numérique
Cofondatrice des Chuchoteuses, je suis une mordue de l'organisation, une adepte de la communication et un jukebox à mes heures perdues. Amoureuse des arts visuels, je milite pour que la série devienne le 11 ème art et demeure à tout instant passionnée des petits mots comme des grands.