Alexa, comment la technologie vocale définira-t-elle 2022 ?


J’étais sur un podcast récemment et l’ingénieur du son m’a dit quelque chose d’impressionnant

Si je manquais un mot ou oubliais un détail, ils pouvaient le réparer en post-production avec la synthèse vocale. Juste pour être clair, cela ne signifie pas que j’enregistrerais une nouvelle ligne à la maison et qu’ils l’inséreraient. Au lieu de cela, ils peuvent utiliser la technologie pour modéliser ma voix et produire des sons, des extraits et des mots qui s’intègrent parfaitement dans mon dialogue. . Je l’ai entendu une fois terminé; c’est imperceptible et étonnant.

Cela m’a fait penser à la technologie vocale plus généralement.

Je me souviens d’une époque où vous passiez des heures à entraîner un programme de dictée sur votre voix pour qu’il transcrive un mot sur deux, se confond avec différentes intonations et transforme de simples tâches d’écriture en épreuves d’une journée. J’ai utilisé les premiers services de synthèse vocale qui ressemblaient à de mauvais films de science-fiction des années 1980. Et j’ai vu de brillants ingénieurs lutter pour enseigner à des programmes de comprendre même des phrases simples.

Au cours des dernières années, nous avons fait d’énormes progrès dans la reconnaissance vocale, le traitement du langage naturel (TAL) et la synthèse vocale. En 2022, nous allons voir la technologie vocale gagner du terrain dans des créneaux et des domaines jusque-là inexplorés. Nous profiterons d’innovations inattendues et d’améliorations exponentielles des services que nous avons déjà.

L’avancement de la technologie est notoirement difficile à prévoir. Pensez à la fréquence à laquelle vous avez lu des articles sur l’arrivée imminente des voitures autonomes (à mon avis, nous devrions déjà avoir des véhicules entièrement autonomes de Tesla, Toyota, General Motors et Google). Malgré le défi, je voulais poser quelques repères et décrire trois avancées clés qui, je pense, devraient arriver dans les prochaines années.

Exploitation de la dernière source de données hors ligne

Les grands managers sont toujours à l’affût des signes avant-coureurs : baisse de productivité, augmentation de la frustration, ce genre de choses. S’ils voient un employé en difficulté, ils interviendront et offriront de l’aide. Quand ça marche, c’est super.

Les managers peuvent attraper les employés avant qu’ils ne s’épuisent et rééquilibrer leur charge de travail. Mais qu’en est-il lorsque les choses passent entre les mailles du filet ? Qu’en est-il lorsque les managers sont distraits par une douzaine de choses différentes ? Dans ces cas, des choses passent inaperçues.

Alors, comment la technologie vocale peut-elle aider ?

Si vous enregistrez, transcrivez et analysez automatiquement les communications de cet employé, vous pourrez voir son épuisement professionnel à un kilomètre de distance. Désormais, c’est un système qui met en évidence l’épuisement professionnel potentiel, pas un manager. C’est proactif, plutôt que réactif.

Et ce n’est qu’un des avantages de l’exploitation de la dernière source de données hors ligne.

Lorsque vous normalisez l’enregistrement et l’analyse des conversations, vous débloquez une tonne d’informations. Entendre les appels de découverte et les démonstrations révèle ce qui se passe réellement dans le cycle de vente. L’analyse des appels d’assistance et de service vous permet de calculer le degré de satisfaction des clients avant qu’ils ne vous le disent. C’est ce qu’on appelle la satisfaction client prédictive. Dans le même ordre d’idées, vous pouvez calculer des taux de désabonnement prédictifs, ce qui vous aide à rencontrer des clients mécontents avant qu’ils ne décident de partir.

C’est juste les trucs simples.

Lorsque les organisations mettront la main sur ces données, elles feront des choses incroyables.

La technologie vocale passive devient active

Repensez à la dernière fois que vous avez interagi avec un ordinateur via la voix. Vous avez utilisé une phrase de commande, n’est-ce pas ?

● Hey Google, les Sacramento Kings ont-ils gagné ?

● Alexa, joue les Beatles.

● Siri, appelle mon frère.

Tous les assistants numériques existants sont passifs. Ils s’assoient sur votre comptoir ou sur votre téléphone et attendent que vous leur disiez quoi faire. Ce n’est que lorsque vous prononcez la phrase de commande qu’ils prêtent attention aux mots précis que vous prononcez ensuite. Et ces mots sont généralement très simples : quel temps fait-il ? Où est mon Uber ? Tamisez les lumières.

Maintenant, comparez cela à une section de véritable discours transcrit :

Um d’accord. Je vais parler de… Je vais parler de — probablement de — genre, des thèmes similaires. La première est que les transcriptions en temps réel deviennent courantes dans tout ce que nous faisons. Parce que la plupart des choses auxquelles je pense portent probablement sur trois thèmes, n’est-ce pas ? Et nous avons parlé un peu de… Comme vous avez des podcasts qui ont des transcriptions, des sous-titres en direct sur toutes les vidéos, que nous enregistrons sur toutes les vidéos qui les accompagnent.

En tant qu’être humain, vous pouvez probablement comprendre ce qui se passe. Mais un ordinateur ? C’est un défi difficile. Lorsque nous parlons, nos pensées ne sont pas une prose parfaite. Nous sautons en avant et revenons en boucle. Nous posons des questions rhétoriques et posons des exemples hypothétiques. Il y a des tics vocaux et des bizarreries de langage. Il faut aux humains des années d’apprentissage constant pour comprendre la parole. Bien qu’il y ait un très long chemin à parcourir, nous commençons à y arriver avec des machines.

Lorsque la technologie peut comprendre non seulement des instructions simples, mais également un discours général, elle peut commencer à jouer un rôle plus actif dans notre vie professionnelle.

Supposons que je propose d’envoyer à un prospect nos informations de tarification lors d’un appel de vente. Peut-être que mon assistant personnel localise le document, rédige un e-mail et le laisse dans ma boîte d’envoi pour approbation. Je ne lui ai pas explicitement dit de faire quoi que ce soit, mais comme il peut suivre les conversations, il peut intervenir et aider.

La technologie est pour tout le monde

Concevoir une technologie pour un public diversifié est difficile. Les gens ont des attentes, des comportements, des objectifs, des idées préconçues, etc. différents. Cela n’est nulle part plus vrai que dans la technologie de la parole. Les gens parlent et sonnent de manière très différente selon leurs origines, leurs cultures, leurs contextes, etc. Là où la technologie ignorait autrefois les différences, elle les embrasse désormais.

Prenez Google. En 2019, le géant de la recherche a lancé Project Euphonia, un vaste effort visant à améliorer ses modèles de reconnaissance vocale pour les personnes ayant un discours atypique. Plus récemment, ils ont annoncé Project Relate, une nouvelle application qui, selon eux, aidera les personnes ayant des troubles de la parole à mieux communiquer avec les autres.

Ce sont tous des développements relativement nouveaux et les progrès sont encore lents, mais ils sont indispensables. La technologie est pour tout le monde. Nous devons faire tout notre possible pour élargir sa portée et rendre les produits et services accessibles à tous.


À propos de l’Autor

Dan O’Connell est directeur de la stratégie et membre du conseil d’administration de Dialpad. Auparavant, il était PDG de TalkIQ, une start-up de reconnaissance vocale et de traitement du langage naturel en temps réel acquise par Dialpad en mai 2018. Avant TalkIQ, il a occupé divers postes de direction des ventes chez AdRoll et Google.

Image en vedette : ©Made360

Laisser un commentaire