Restez en avance avec des stratégies financières pratiques, des conseils, des actualités et des tendances.
Série Innovation : Décrypter le traitement du langage naturel
"Hé Siri, dis-moi les prévisions pour le week-end" "Hé Cortana, qu'est-ce que 3 miles en kilomètres." "Alexa, vérifie mes messages vocaux de maman" "Hé, Google, quels sont les meilleurs restaurants de
novembre 30, 2017"Hé Siri, dis-moi les prévisions pour le week-end"
"Hé Cortana, qu'est-ce que 3 miles en kilomètres."
"Alexa, vérifie mes messages vocaux de maman"
"Hé, Google, quels sont les meilleurs restaurants de la Nouvelle-Orléans ?"
Nous les avons tous entendus d'une manière ou d'une autre, chez un ami, au restaurant, assis dans une voiture ou dans le confort de notre propre maison. Les interactions vocales naturelles avec votre appareil connecté préféré sont désormais une réalité et ne relèvent plus de la science-fiction. Le point clé ici est l'interaction avec des voix humaines, en utilisant le langage naturel de tous les jours, et non un langage de programmation. La prolifération soudaine d'assistants intelligents et de dispositifs d'automatisation des consommateurs capables de déchiffrer notre discours a été rendue possible grâce aux progrès réalisés dans le domaine du traitement du langage naturel.
Qu'est-ce que le traitement du langage naturel ?
Bien qu'il existe de nombreuses définitions du traitement du langage naturel (ou TAL), la plus simple à mon sens est la capacité des machines à analyser, comprendre et générer du langage humain. Cette capacité est obtenue en combinant des modèles et des pratiques issus de l'informatique, de l'intelligence artificielle et de la linguistique informatique(Wikipédia)
Comment cela fonctionne-t-il ?

Figure 1 - Organigramme des mécanismes de la PNL[/caption]
Si les résultats d'une question posée à votre assistant numérique favori peuvent sembler magiques, une série logique d'événements se déroule à chaque fois (figure 1). Lorsque vous posez une question en prononçant une phrase telle que "Alexa, vérifie les messages vocaux de ma mère", le moteur NLP de votre appareil réagit de la manière suivante :
1. Reconnaissance de la parole - La première étape consiste à numériser la voix, puis à décomposer ou analyser le langage naturel de la question parlée afin qu'une machine puisse identifier chaque mot. En raison d'accents différents, d'intonations non reconnues ou même de bruits de fond ambiants, la précision de cette traduction n'est pas toujours de 100 %.
Historiquement, cette tâche était également difficile parce que les ordinateurs n'étaient pas assez rapides pour suivre le rythme de la parole et effectuer la reconnaissance. Les moteurs NLP modernes tirent parti de services de calcul hautement évolutifs dans le nuage et appliquent des algorithmes de reconnaissance automatique de la parole (ASR) pour décomposer rapidement les phrases en leurs mots constitutifs qui peuvent être analysés. L'un de ces services, qui alimente Alexa, s'appelle Amazon Lex, et il existe aujourd'hui des services en nuage proposés par tous les grands fournisseurs : Microsoft Cognitive Services, Google Cloud Natural Language.
Non seulement ces services offrent aux développeurs d'applications un service en nuage intégré pour effectuer l'ASR, mais ils effectuent également l'analyse et la notation de confiance statistique nécessaires pour comprendre les mots et déterminer l'intention.
2. Compréhension du langage naturel - Cette étape intervient immédiatement après que les mots ont été analysés et traduits en langage machine. La compréhension du langage naturel (NLU) est de loin l'étape la plus difficile de la chaîne d'événements du NLP, car le système doit comprendre l'intention de la question initiale de l'utilisateur. Les algorithmes de compréhension du langage naturel doivent donc utiliser une variété de modèles d'analyse lexicale pour désambiguïser les mots. Par exemple, "check" peut être un nom (par exemple, une facture dans un restaurant) ou un verbe (par exemple, vérifier quelque chose). La situation est encore plus complexe lorsque l'on inclut des nombres dans le discours. Par exemple, "2017" peut être l'année 2017 ou le nombre deux mille dix-sept.
À l'aide d'un moteur NLP tel que Lex, les développeurs créent des règles pour "entraîner" les applications à appliquer correctement ces règles afin de déterminer l'intention de l'utilisateur. Bien entendu, chaque personne pose ses questions différemment. Il est donc possible que plusieurs questions aient la même intention. Par exemple, les énoncés suivants pourraient tous avoir la même intention, qui est de lire les messages vocaux de ma mère :
"Alexa, écoute les messages vocaux de ma mère" "Alexa, écoute les messages de ma mère" "Alexa, écoute les messages vocaux de ma mère" "Alexa, j'aimerais écouter les messages vocaux de ma mère "Alexa, écoute les messages de maman"
Une fois l'intention comprise, une action peut être lancée, comme l'exécution de commandes pour filtrer et récupérer les messages vocaux de ma boîte de réception laissés par ma mère, puis les diffuser sur le haut-parleur de mon appareil. À l'ère de l'internet des objets, où de nombreux appareils sont connectés, ces commandes pourraient déclencher l'exécution de services provenant d'autres appareils ou applications.
3. Génération de langage naturel - Les conversations sont rarement unilatérales et, pour apporter des réponses interactives, les ordinateurs doivent être capables de communiquer avec l'utilisateur. C'est ce que l'on appelle la génération de langage naturel (NLG). Il s'agit de travailler dans le sens inverse de ce que nous venons de décrire. La NLG prend le langage machine, en utilisant un ensemble de règles grammaticales et un lexique, et le traduit en mots et en phrases normales. En général, l'étape finale consiste à synthétiser le texte à l'aide d'un modèle linguistique en audio pour qu'il ressemble à une voix humaine, dans le cadre d'un processus appelé "synthèse vocale". Si l'on reprend l'exemple d'AWS, il existe un service sur AWS appelé Polly qui facilite la conversion du texte en parole réaliste, de sorte que les accusés de réception ou les questions supplémentaires peuvent être retransmis avec une voix naturelle.
Où cela nous mènera-t-il ?
Si la demande et l'utilisation du NLP ont augmenté dans les applications grand public, il n'en va pas de même pour les applications professionnelles. Dans les applications grand public, l'étendue du vocabulaire et la complexité des intentions sont plus restreintes, à commencer par les tâches quotidiennes. En revanche, dans les entreprises, le vocabulaire requis est beaucoup plus large si l'on tient compte du langage du domaine concerné, et la complexité des intentions varie considérablement en fonction de l'application commerciale. L'ambiguïté souvent inhérente aux énoncés dans le monde des affaires peut être complexe. Pour illustrer ce propos, prenons l'exemple d'un simple énoncé d'un utilisateur tel que "Montrez-moi les services les plus performants au cours du premier trimestre". C'est assez ambigu : qu'est-ce que "Q1", "top" ou "performant" et pensez-vous aux différentes manières possibles de poser cette question (permutation d'énoncés) ?
Ce qui est passionnant, c'est que les technologies NLP et les cadres de développement qui ont évolué pour fournir des produits grand public tels que l'Echo et le Google Home sont également disponibles pour les développeurs d'applications d'entreprise. Et au fur et à mesure que ces cadres évoluent et s'affinent, le corps collectif des modèles NLU créés devient également disponible pour les applications d'entreprise, sur lesquelles elles peuvent s'appuyer.
Une nouvelle dimension de l'expérience utilisateur et de l'interaction est en train de naître dans l'espace des applications d'entreprise, encore une fois sous l'impulsion des attentes des applications grand public. Avec le temps, les expériences vocales, plus naturelles pour les utilisateurs, transformeront l'expérience de l'utilisateur d'une manière comparable à la perturbation introduite par les interfaces graphiques. C'est une période passionnante pour développer de nouvelles applications d'entreprise !