OpenAI annonce deux nouvelles fonctionnalités pour ChatGPT

« ChatGPT peut maintenant voir, entendre et parler ». C’est par ces mots qu’OpenAI dévoile le déploiement de deux nouvelles fonctionnalités sur ChatGPT. Possédant déjà des compétences textuelles impressionnantes, le modèle de langage franchit une étape supplémentaire : il est désormais possible d’avoir une conversation vocale avec le chatbot, ou lui montrer une image pour appuyer ses propos. Découvrez ici les innovations mises en place par l’entreprise américaine et comment elles bouleversent notre expérience avec l’intelligence artificielle.

Une interface intuitive pour une utilisation polyvalente​

L’expérience vocale​

La première de ces nouvelles fonctionnalités de ChatGPT fait de lui bien plus qu’un chatbot limité au texte. Elles lui offrent la possibilité de dialoguer avec l’utilisateur, devenant un véritable assistant vocal. La fluidité de l’interaction promet de rendre l’expérience beaucoup plus naturelle et intuitive. Ce nouveau mode de communication pourrait être particulièrement pratique dans les situations où vos mains sont occupées, comme lorsque vous cuisinez ou bricolez. C’est aussi une avancée significative en termes d’accessibilité, pour les personnes souffrant de déficiences visuelles ou ayant des difficultés à se servir d’un clavier.

La reconnaissance d’image​

En plus de la reconnaissance vocale, ChatGPT propose aussi une fonctionnalité de reconnaissance d’image. Vous pouvez prendre une photo de votre réfrigérateur pour obtenir des idées de repas, photographier un problème de mathématiques pour recevoir de l’aide, ou encore capturer des données graphiques pour en avoir une meilleure compréhension. Les capacités visuelles de l’Intelligence artificielle d’OpenAI ne se limitent pas au décryptage d’une seule image : elles permettent également d’analyser des documents contenant à la fois du texte et des images.

Les nouvelles fonctionnalités de ChatGPT portées par une technologie de pointe

La puissance derrière la voix​

Le nouveau ChatGPT utilise un modèle de synthèse vocale sophistiqué capable de générer un son très proche de la voix humaine. Ce modèle est alimenté par Whisper, le système de reconnaissance vocale de pointe d’OpenAI, qui transforme les instructions vocales en texte exploitable. Vous pourrez en outre choisir entre cinq voix différentes pour personnaliser votre expérience. Une fois configurée, cette nouvelle fonctionnalité est disponible par un simple appui sur une icône en forme de casque. Notez que, pour l’instant, la prise en charge de la langue française n’est pas confirmée.

L’intelligence derrière l’image​

Pour sa reconnaissance d’image, ChatGPT s’appuie sur les modèles GPT-3.5 et GPT-4. Ces modèles de dernière génération sont maintenant capables d’appliquer leur raisonnement linguistique à une grande variété d’images, qu’il s’agisse de photos, de captures d’écrans ou de documents mixtes. Ils rendent en outre l’interaction avec l’IA non seulement plus naturelle, mais aussi plus complète.

Un déploiement progressif et sécurisé

Pour s’assurer de la sécurité et de l’efficacité des nouvelles fonctionnalités de ChatGPT, OpenAI a choisi de les déployer de façon progressive. Les utilisateurs Plus et Entreprise seront donc les premiers à profiter des dernières innovations du chatbot. Cela permettra à OpenAI de recueillir des données précieuses pour affiner ses modèles avant de les mettre à la disposition du grand public. La reconnaissance vocale sera tout d’abord disponible sur iOS et Android, tandis que la reconnaissance d’image sera quant à elle accessible sur toutes les plateformes. Par ailleurs, ces nouveautés présentent des défis importants en matière de sécurité, notamment le risque d’usurpation vocale et la manipulation d’image. OpenAI a, par conséquent, effectué des tests intensifs dans différents domaines à risque, comme l’extrémisme ou les contenus sensibles, afin de garantir un usage responsable et sécurisé de ses technologies.

Les nouvelles fonctionnalités de ChatGPT semblent donc annoncer un tournant dans le monde des assistants virtuels. Avec des avancées dans la reconnaissance vocale et d’image, une expérience plus immersive et intuitive, la communication avec le chatbot est rendue plus naturelle et fluide. Tout en veillant à maintenir un niveau de sécurité élevé, OpenAI élargit ainsi le spectre des possibles : avec des interactions plus faciles et une IA plus accessible et utile, l’intégration de cette dernière dans notre vie quotidienne devient plus qu’envisageable. Une chose est sûre : ChatGPT est là pour durer.

Source :

OpenAI, ChatGPT can now see, hear, and speak : https://openai.com/blog/chatgpt-can-now-see-hear-and-speak