OpenAI vient tout juste d’annoncer qu’elle a récemment mené une prévisualisation à petite échelle d’un nouvel outil appelé Voice Engine.
Il s’agit d’une technologie de clonage vocal qui peut imiter n’importe quel locuteur en analysant un échantillon audio de 15 secondes. La société affirme qu’elle génère une “parole naturelle” avec des voix “émotives et réalistes”.
Des possibilités infinies… et des risques sérieux
Cette technologie, basée sur l’API de synthèse de la parole déjà existante de l’entreprise, est en cours de développement depuis 2022. OpenAI utilise déjà une version de l’ensemble d’outils pour alimenter les voix prédéfinies disponibles dans l’API actuelle de synthèse de la parole et la fonction de lecture à haute voix. Il y a plusieurs exemples sur le blog officiel de la société et ils sonnent étrangement proches de la réalité. Je vous encourage à les écouter et à imaginer les possibilités, bonnes et mauvaises.
Utilisations potentielles et préoccupations en matière de confidentialité
OpenAI affirme que cette technologie pourrait être utile pour l’aide à la lecture, la traduction linguistique et l’aide aux personnes souffrant de troubles de la parole soudains ou dégénératifs. Cependant, les acteurs malveillants abuseraient certainement de cette technologie pour se livrer à de sérieuses supercheries deepfake, ce qui est déjà un problème. Dans cette optique, Voice Engine n’est pas tout à fait prêt pour le grand public, car il existe de sérieuses préoccupations en matière de confidentialité qui doivent être résolues avant un déploiement complet.
Mesures de sécurité et approche responsable
OpenAI reconnaît que cette technologie présente “des risques sérieux, particulièrement préoccupants en année électorale.” La société déclare qu’elle intègre les retours d’informations de “partenaires américains et internationaux de divers horizons, notamment du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà” pour garantir que le produit soit lancé avec un minimum de risques. Tous les testeurs de la prévisualisation ont accepté les politiques d’utilisation d’OpenAI, qui interdisent l’usurpation de l’identité d’une autre personne sans son consentement ou son droit légal.
Transparence et contrôle de l’utilisation
De plus, toute personne utilisant la technologie devra divulguer à son public que les voix sont générées par une IA. OpenAI a mis en place des mesures de sécurité, telles que le tatouage numérique pour retracer l’origine de tout audio et la “surveillance proactive” de l’utilisation du système. Lorsque le produit sera officiellement lancé, il y aura une “liste de voix interdites” qui détectera et empêchera les locuteurs générés par IA trop similaires à des personnalités importantes.
Prix compétitif et plans futurs
Quant au moment du déploiement, OpenAI reste discret. TechCrunch a découvert quelques données de tarification potentielles et il semble qu’elle sous-estime la concurrence dans l’espace, comme ElevenLabs. Voice Engine pourrait coûter 15 dollars pour un million de caractères, soit environ 162 500 mots. C’est à peu près la longueur de “Shining” de Stephen King. Cela semble certainement être un moyen économique de créer un livre audio. Les documents marketing font également référence à une version “HD” qui coûte le double, mais la société n’a pas détaillé le fonctionnement de cela.
Un potentiel énorme, mais des défis à relever
OpenAI continue de faire des annonces importantes cette semaine. Elle vient d’annoncer un autre partenariat avec son meilleur ami Microsoft pour construire un supercalculateur basé sur l’IA appelé “Stargate”. Le projet coûterait apparemment la bagatelle de 100 milliards de dollars, selon The Information.