Anthropic y OpenAI presentaron el jueves 20 actualizaciones de sus plataformas de inteligencia artificial generativa, con la primera compañía enfocada en búsquedas web para usuarios en la aplicación Claude ( Android , iOS ) y la segunda con nuevos modelos de audio para que los desarrolladores creen agentes de voz en el universo GPT-4o y 4o mini.
OpenAI
Imagen de ejemplo de agentes de IA trabajando con modelos OpenAI (divulgación)
La empresa ChatGPT ha presentado tres nuevos modelos de audio que estarán disponibles para profesionales y empresas a través de API. En su perfil de Linkedin , Kevin Weil, CPO de OpenAI, explicó que la actualización permitirá crear agentes de voz con solo unas pocas líneas de código.
Por ejemplo, se puede crear un agente de voz para que hable como «un agente de servicio al cliente amigable», según las instrucciones del desarrollador. Esto se debe a que uno de los nuevos modelos incluye la posibilidad de que el desarrollador otorgue control sobre el tiempo de respuesta y la emoción.
Los otros dos modelos lanzados son una conversión de voz a texto significativamente mejorada; más avanzados que los disponibles en Whisper, el modelo actual de reconocimiento y transcripción de voz de la compañía.
Para desarrolladores y curiosos que quieran probar el potencial de los modelos, OpenAI creó este sitio web que permite elegir una de las once voces y uno de los cinco timbres disponibles para la narración. Puedes cambiar estas opciones en cualquier momento y la narración cambia en tiempo real.
La página tiene dos indicaciones, una para definir cómo el tono del narrador, el ritmo, la pronunciación, la emoción puesta en la voz, la inflexión y la elección de palabras. Y el otro marco es donde irá el discurso que dirá el agente. Para escuchar, presione play. Puedes compartir vía audio y descargar el audio de la narración.
Los tres modelos de voz estarán disponibles a partir de este jueves vía API y en el SDK de Agentes.
Claude
- Investigadores que necesitan encontrar más trabajos y tendencias para validar su trabajo;
- Compradores que quieran comparar precios y productos;
- Analistas financieros que necesitan información del mercado en tiempo real.
El motor de búsqueda se está implementando inicialmente para los usuarios de pago de Claude en los Estados Unidos. Para el resto, hay soporte disponible para usuarios que no pagan y la búsqueda debería llegar pronto a más países.
Imagen principal: Ilustración producida por Mobile Time con IA