ChatGPT aprendió a ver y escuchar

OpenAI anunció que empezará a liberar de forma paulatina dos nuevas habilidades para ChatGPT: la de poder escuchar mensajes de voz y luego contestarte con voz (usando un nuevo modelo de text-to-speech), y la de poder ver imágenes y contestarte sobre ellas.

Es decir, desde ahora ChatGPT será un modelo multimodal con acceso a texto, audio e imágenes, en base a los cuáles construir sus respuestas y dialogar con el usuario.

En este vídeo puedes ver cómo funciona:

¿Cuáles son las novedades?

💡 Nuevas capacidades de voz e imagen en ChatGPT: ChatGPT es un asistente inteligente que te permite tener conversaciones de voz o mostrarle imágenes de lo que estás hablando. Puedes usarlo para resolver problemas, planificar comidas, analizar datos o simplemente charlar.

🎙️ Cómo usar la voz: Puedes hablar con ChatGPT usando uno de los cinco voces diferentes que crearon con actores de voz profesionales. Para activar la voz, hay que ir a AjustesNuevas características en la aplicación móvil y elige la opción de conversaciones de voz. Luego, toca el botón de auriculares en la esquina superior derecha de la pantalla de inicio y selecciona tu voz preferida.

👁️ Cómo usar la imagen: Puedes mostrarle a ChatGPT una o más imágenes, como fotografías, capturas de pantalla o documentos. Para enfocar en una parte específica de la imagen, puedes usar la herramienta de dibujo para “destacarlo” a través de la App Móvil. Para empezar, toca el botón de foto para capturar o elegir una imagen. Si estás en iOS o Android, toca el botón de más primero.

🔐 Un ojo en la seguridad y beneficio: OpenAI está implementando estas capacidades gradualmente, para mejorarlas y reducir los riesgos asociados. También queremos preparar a todos para sistemas más potentes en el futuro.

Ejemplos reales accesibles hoy mismo

OpenAI anunció que Spotify y Be My Eyes ya están usando esta tecnología para crear aplicaciones creativas y accesibles.

Por ejemplo, Spotify está usándolo para clonar la voz de algunos podcast y llevarlos a nuevos idiomas, de forma de hacerlos más accesibles para todo el mundo.

Te compartimos el de Lex Fridman Podcast traducido al español para que veas cómo funciona:

Riesgos y desafíos de ChatGPT con voz

La herramienta de voz tiene un gran desafío: que no usen un clon de voz tuyo para el mal, por ello ChatGPT está implementándolo solo con actores de voz desde su interfaz, y no con la posibilidad de crear voces propias.


Publicado

en

por

Comentarios

Agregar un comentario

Tu dirección de correo electrónico no será publicada. Los campos requeridos están marcados *