Les acteurs de la voix de l’IA semblent plus humains que jamais et sont prêts à embaucher

L’article du blog de l’entreprise dégouline de l’enthousiasme d’une infopublicité américaine des années 90. WellSaid Labs décrit ce que les clients peuvent attendre de ses « huit nouveaux acteurs de la voix numérique ! » Tobin est « énergique et perspicace ». Paige est « posée et expressive ». Ava est « polie, sûre d’elle et professionnelle ».

Chacun est basé sur un véritable acteur vocal, dont la ressemblance (avec consentement) a été préservée à l’aide de l’IA. Les entreprises peuvent désormais autoriser ces voix à dire tout ce dont elles ont besoin. Ils introduisent simplement du texte dans le moteur vocal, et sortent un clip audio net d’une performance au son naturel.

Laboratoires WellSaid, une startup basée à Seattle et issue de l’institut de recherche à but non lucratif Allen Institute of Artificial Intelligence, est la dernière entreprise à proposer des voix d’IA à ses clients. Pour l’instant, elle est spécialisée dans les voix pour les vidéos e-learning d’entreprise. D’autres startups font des voix pour assistants numériques, opérateurs de centres d’appels, et même personnages de jeux vidéo.

Il n’y a pas si longtemps, de telles voix deepfake avaient une mauvaise réputation pour leur utilisation dans appels frauduleux et supercherie internet. Mais leur amélioration de la qualité suscite depuis l’intérêt d’un nombre croissant d’entreprises. Des percées récentes dans l’apprentissage en profondeur ont permis de reproduire de nombreuses subtilités de la parole humaine. Ces voix s’arrêtent et respirent aux bons endroits. Ils peuvent changer de style ou d’émotion. Vous pouvez repérer l’astuce s’ils parlent trop longtemps, mais dans de courts clips audio, certains sont devenus impossibles à distinguer des humains.

Les voix AI sont également bon marché, évolutives et faciles à utiliser. Contrairement à l’enregistrement d’un acteur vocal humain, les voix synthétiques peuvent également mettre à jour leur script en temps réel, ouvrant de nouvelles opportunités pour personnaliser la publicité.

Mais la montée des fausses voix hyperréalistes n’est pas sans conséquence. Les acteurs de la voix humaine, en particulier, ont été amenés à se demander ce que cela signifie pour leurs moyens de subsistance.

Comment simuler une voix

Les voix synthétiques existent depuis un certain temps. Mais les anciens, y compris les voix de l’original Siri et Alexa, simplement des mots et des sons collés ensemble pour obtenir un effet robotique maladroit. Les faire paraître plus naturels était une tâche manuelle laborieuse.

L’apprentissage en profondeur a changé cela. Les développeurs de voix n’avaient plus besoin de dicter le rythme exact, la prononciation ou l’intonation du discours généré. Au lieu de cela, ils pourraient alimenter quelques heures d’audio dans un algorithme et faire en sorte que l’algorithme apprenne ces modèles par lui-même.

« Si je suis Pizza Hut, je ne peux certainement pas ressembler à Domino’s, et je ne peux certainement pas ressembler à Papa John’s. »

Rupal Patel, fondateur et PDG de VocaliD

Au fil des années, les chercheurs ont utilisé cette idée de base pour construire des moteurs vocaux de plus en plus sophistiqués. Celui construit par WellSaid Labs, par exemple, utilise deux principaux modèles d’apprentissage en profondeur. Le premier prédit, à partir d’un passage de texte, les grandes lignes du son d’un locuteur, y compris l’accent, la hauteur et le timbre. La seconde remplit les détails, y compris les respirations et la façon dont la voix résonne dans son environnement.

Cependant, créer une voix synthétique convaincante demande plus qu’une simple pression sur un bouton. Une partie de ce qui rend une voix humaine si humaine est son incohérence, son expressivité et sa capacité à livrer les mêmes lignes dans des styles complètement différents, selon le contexte.

Capturer ces nuances implique de trouver les bons acteurs vocaux pour fournir les données de formation appropriées et affiner les modèles d’apprentissage en profondeur. WellSaid dit que le processus nécessite au moins une heure ou deux d’audio et quelques semaines de travail pour développer une réplique synthétique au son réaliste.

Les voix d’IA sont devenues particulièrement populaires parmi les marques qui cherchent à maintenir un son cohérent dans des millions d’interactions avec les clients. Avec l’omniprésence des haut-parleurs intelligents aujourd’hui et l’essor des agents de service client automatisés ainsi que des assistants numériques intégrés dans les voitures et les appareils intelligents, les marques peuvent avoir besoin de produire plus d’une centaine d’heures d’audio par mois. Mais ils ne veulent également plus utiliser les voix génériques offertes par la technologie traditionnelle de synthèse vocale – une tendance qui s’est accélérée pendant la pandémie alors que de plus en plus de clients ont ignoré les interactions en magasin pour interagir virtuellement avec les entreprises.

« Si je suis Pizza Hut, je ne peux certainement pas ressembler à Domino’s, et je ne peux certainement pas ressembler à Papa John’s », déclare Rupal Patel, professeur à la Northeastern University et fondateur et PDG de VocaliD, qui promet de construire des voix personnalisées qui correspondent à l’identité de marque d’une entreprise. « Ces marques ont pensé à leurs couleurs. Ils ont pensé à leurs polices. Maintenant, ils doivent aussi commencer à réfléchir à la façon dont leur voix sonne.

Alors que les entreprises devaient embaucher différents acteurs de la voix pour différents marchés (le nord-est contre le sud des États-Unis ou la France contre le Mexique), certaines entreprises d’IA vocale peuvent manipuler l’accent ou changer la langue d’une seule voix de différentes manières. Cela ouvre la possibilité d’adapter les publicités sur les plateformes de streaming en fonction de qui écoute, en changeant non seulement les caractéristiques de la voix mais aussi les mots prononcés. Une annonce de bière pourrait dire à un auditeur de s’arrêter dans un pub différent selon qu’il joue à New York ou à Toronto, par exemple. Resemble.ai, qui conçoit des voix pour les publicités et les assistants intelligents, affirme qu’il travaille déjà avec des clients pour lancer de telles publicités audio personnalisées sur Spotify et Pandora.

Les industries du jeu et du divertissement en voient également les avantages. Sonantic, une entreprise spécialisée dans les voix émotives qui peuvent rire et pleurer ou chuchoter et crier, travaille avec des créateurs de jeux vidéo et des studios d’animation pour fournir les voix off de leurs personnages. Beaucoup de ses clients n’utilisent les voix synthétisées qu’en pré-production et passent à de vrais comédiens pour la production finale. Mais Sonantic dit que quelques-uns ont commencé à les utiliser tout au long du processus, peut-être pour des personnages avec moins de lignes. Resemble.ai et d’autres ont également travaillé avec des émissions de cinéma et de télévision pour corriger les performances des acteurs lorsque les mots sont brouillés ou mal prononcés.

Source

L’article Les acteurs de la voix de l’IA semblent plus humains que jamais et sont prêts à embaucher est apparu en premier sur zimo news.