Anthropic y OpenAI presentaron el jueves 20 actualizaciones de sus plataformas de inteligencia artificial generativa, con la primera compañía enfocada en búsquedas web para usuarios en la aplicación Claude Android , iOS ) y la segunda con nuevos modelos de audio para que los desarrolladores creen agentes de voz en el universo GPT-4o y 4o mini.

OpenAI

Fondo de pantalla de modelos de audio 16.9

Imagen de ejemplo de agentes de IA trabajando con modelos OpenAI (divulgación)

La empresa ChatGPT ha presentado tres nuevos modelos de audio que estarán disponibles para profesionales y empresas a través de API. En su perfil de Linkedin , Kevin Weil, CPO de OpenAI, explicó que la actualización permitirá crear agentes de voz con solo unas pocas líneas de código.

Por ejemplo, se puede crear un agente de voz para que hable como «un agente de servicio al cliente amigable», según las instrucciones del desarrollador. Esto se debe a que uno de los nuevos modelos incluye la posibilidad de que el desarrollador otorgue control sobre el tiempo de respuesta y la emoción.

Los otros dos modelos lanzados son una conversión de voz a texto significativamente mejorada; más avanzados que los disponibles en Whisper, el modelo actual de reconocimiento y transcripción de voz de la compañía.

Para desarrolladores y curiosos que quieran probar el potencial de los modelos, OpenAI creó este sitio web que permite elegir una de las once voces y uno de los cinco timbres disponibles para la narración. Puedes cambiar estas opciones en cualquier momento y la narración cambia en tiempo real.

La página tiene dos indicaciones, una para definir cómo el tono del narrador, el ritmo, la pronunciación, la emoción puesta en la voz, la inflexión y la elección de palabras. Y el otro marco es donde irá el discurso que dirá el agente. Para escuchar, presione play. Puedes compartir vía audio y descargar el audio de la narración.

Los tres modelos de voz estarán disponibles a partir de este jueves vía API y en el SDK de Agentes.

Claude

Anthropic ha anunciado que su aplicación de inteligencia artificial generativa, Claude, ahora se conecta a la búsqueda web. La aplicación recibe un motor de búsqueda y comienza a tener resultados web insertados en sus respuestas.
A partir de esta actualización, los textos generados por la aplicación incluirán citas de fuentes en línea. La idea de la compañía es que, cuando la aplicación dé su respuesta, el usuario compruebe la fuente original. En opinión de la empresa, la búsqueda puede ayudar a:
  • Investigadores que necesitan encontrar más trabajos y tendencias para validar su trabajo;
  • Compradores que quieran comparar precios y productos;
  • Analistas financieros que necesitan información del mercado en tiempo real.

El motor de búsqueda se está implementando inicialmente para los usuarios de pago de Claude en los Estados Unidos. Para el resto, hay soporte disponible para usuarios que no pagan y la búsqueda debería llegar pronto a más países.

Imagen principal: Ilustración producida por Mobile Time con IA

 

***************************

¡Reciba gratuitamente el boletín de Mobile Time Latinoamérica y manténgase bien informado sobre tecnología móvil y negocios! Regístrese aquí.