OpenAI anunció que empezará a liberar de forma paulatina dos nuevas habilidades para ChatGPT: la de poder escuchar mensajes de voz y luego contestarte con voz (usando un nuevo modelo de text-to-speech), y la de poder ver imágenes y contestarte sobre ellas.
Es decir, desde ahora ChatGPT será un modelo multimodal con acceso a texto, audio e imágenes, en base a los cuáles construir sus respuestas y dialogar con el usuario.
En este vídeo puedes ver cómo funciona:
¿Cuáles son las novedades?
💡 Nuevas capacidades de voz e imagen en ChatGPT: ChatGPT es un asistente inteligente que te permite tener conversaciones de voz o mostrarle imágenes de lo que estás hablando. Puedes usarlo para resolver problemas, planificar comidas, analizar datos o simplemente charlar.
🎙️ Cómo usar la voz: Puedes hablar con ChatGPT usando uno de los cinco voces diferentes que crearon con actores de voz profesionales. Para activar la voz, hay que ir a Ajustes → Nuevas características en la aplicación móvil y elige la opción de conversaciones de voz. Luego, toca el botón de auriculares en la esquina superior derecha de la pantalla de inicio y selecciona tu voz preferida.
👁️ Cómo usar la imagen: Puedes mostrarle a ChatGPT una o más imágenes, como fotografías, capturas de pantalla o documentos. Para enfocar en una parte específica de la imagen, puedes usar la herramienta de dibujo para “destacarlo” a través de la App Móvil. Para empezar, toca el botón de foto para capturar o elegir una imagen. Si estás en iOS o Android, toca el botón de más primero.
🔐 Un ojo en la seguridad y beneficio: OpenAI está implementando estas capacidades gradualmente, para mejorarlas y reducir los riesgos asociados. También queremos preparar a todos para sistemas más potentes en el futuro.
Ejemplos reales accesibles hoy mismo
OpenAI anunció que Spotify y Be My Eyes ya están usando esta tecnología para crear aplicaciones creativas y accesibles.
Por ejemplo, Spotify está usándolo para clonar la voz de algunos podcast y llevarlos a nuevos idiomas, de forma de hacerlos más accesibles para todo el mundo.
Te compartimos el de Lex Fridman Podcast traducido al español para que veas cómo funciona:
Riesgos y desafíos de ChatGPT con voz
La herramienta de voz tiene un gran desafío: que no usen un clon de voz tuyo para el mal, por ello ChatGPT está implementándolo solo con actores de voz desde su interfaz, y no con la posibilidad de crear voces propias.
Agregar un comentario