24 Noticias

Google lanza Gemini 2.0 y Anthropic Claude 3.5 Haiku, tras el exitoso cierre de fin de año de OpenAI

Google lanza Gemini 2.0 y Anthropic Claude 3.5 Haiku, tras el exitoso cierre de fin de año de OpenAI

En resumen

  • Gemini 2.0 debutó con capacidades multimodales y un enfoque en agentes de IA, buscando liderar la interacción autónoma y personalizada.
  • Google integrará Gemini 2.0 en sus productos a partir de enero, rivalizando con OpenAI y Anthropic en servicios premium de IA.

Esta semana, Google lanzó Gemini 2.0, brindando su último modelo de inteligencia artificial con capacidades autónomas y funciones multimodales.

Lo que inmediatamente se destaca en esta versión es que Google ve que los chatbots de IA evolucionan hacia agentes de IA: software personalizado que utiliza IA generativa para interactuar con los usuarios y comprender y ejecutar tareas en tiempo real.

«Con los nuevos avances en multimodalidad, como la salida nativa de imágenes y audio, y el uso nativo de herramientas, nos permitirá construir nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal», dijo el director ejecutivo de Google, Sundar Pichai.

El modelo se basa en los fundamentos multimodales de Gemini 1.5 con nuevas capacidades nativas de imagen y conversión de texto a voz, junto con capacidades de razonamiento mejoradas.

Según Google, la variante 2.0 Flash supera al modelo 1.5 Pro anterior en puntos de referencia clave y funciona al doble de velocidad.

Este modelo está actualmente disponible para los usuarios que pagan por Google Advanced, la suscripción paga diseñada para competir contra Claude y ChatGPT Plus.

Aquellos que deseen profundizar más pueden disfrutar de una experiencia más completa accediendo al modelo a través de Google AI Studio.

Desde allí, los usuarios pueden cargar hasta 1 millón de tokens de contexto (casi 10 veces la capacidad de ChatGPT) junto con funciones como soporte de entrada audiovisual, verificación de datos de enlaces, ejecución de código y ajustes configurables como «temperatura» para respuestas aleatorias y «Top». P» para variación léxica, lo que permite controlar la creatividad o la factualidad del modelo.

Es importante considerar que esta interfaz es más compleja que la interfaz de usuario simple, directa y amigable que proporciona Gemini.

Además, es más potente pero mucho más lento. En nuestras pruebas, le pedimos que analizara un documento token de 74 KB y tardó casi 10 minutos en producir una respuesta.

Sin embargo, el resultado fue lo suficientemente preciso, sin alucinaciones. Los documentos más largos de alrededor de 200.000 tokens (casi 150.000 palabras) tardarán mucho más en analizarse, pero el modelo es capaz de hacer el trabajo si se tiene suficiente paciencia.

Google también implementó una función de “inmersión profunda”, disponible ahora en Gemini Advanced, para aprovechar las capacidades mejoradas de razonamiento y contexto extenso del modelo para explorar temas complejos y compilar informes.

Esto permite a los usuarios abordar diferentes temas con más profundidad que si usaran una plantilla normal diseñada para proporcionar respuestas más directas. Sin embargo, está basado en Gemini 1.5 y no hay un cronograma a seguir hasta que haya una versión basada en Gemini 2.0.

Esta nueva característica pone a Gemini en competencia directa con servicios como Perplexity, You.com Research Assistant e incluso el menos conocido BeaGo, todos los cuales ofrecen una experiencia similar. Sin embargo, el servicio de Google ofrece algo diferente. Antes de proporcionar información, se debe elaborar el mejor enfoque para la tarea.

Además, presenta un plan al usuario, quien puede editarlo para incluir o excluir información, agregar más materiales de investigación o extraer fragmentos de información. Una vez establecida la metodología, pueden indicarle al chatbot que comience su investigación. Hasta ahora, ningún servicio de IA ha ofrecido a los investigadores este nivel de control y personalización.

En nuestras pruebas, un simple mensaje como «Investigar el impacto de la IA en las relaciones humanas» desencadenó una investigación en más de una docena de sitios científicos u oficiales confiables, y el modelo produjo un documento de 3 páginas basado en 8 fuentes citadas adecuadamente. Lo cual, por cierto, no estuvo nada mal.

Proyecto Astra: Asistente de IA multimodal Gemini

Google también compartió un video que muestra el Proyecto Astra, su asistente de inteligencia artificial experimental impulsado por Gemini 2.0. Astra es la respuesta de Google a Meta AI: un asistente de IA que interactúa con personas en tiempo real, utilizando la cámara y el micrófono del teléfono inteligente como entradas y brindando respuestas en modo de voz.

Google ha brindado al Proyecto Astra capacidades ampliadas, incluidas conversaciones multilingües con reconocimiento de acento mejorado, integración con la Búsqueda de Google, Lens y Maps, una memoria extendida que retiene 10 minutos de contexto de conversación, memoria a largo plazo y baja latencia de conversación a través de nuevas capacidades de transmisión. .

A pesar de una recepción algo fría en las redes sociales (el video de Google solo ha obtenido 90.000 visitas desde su lanzamiento), el lanzamiento de la nueva familia de modelos parece estar ganando una tracción decente entre los usuarios, con un aumento significativo en las búsquedas web, especialmente considerando su anuncio. durante una interrupción importante de ChatGPT Plus.

El anuncio de Google de esta semana deja claro que está intentando competir contra OpenAI para ser el líder de la industria en IA generativa.

De hecho, su anuncio se produce en medio de la campaña «12 días de Navidad» de OpenAI, en la que la compañía revela un nuevo producto diariamente.

Hasta ahora, OpenAI ha revelado un nuevo modelo de razonamiento (o1), una herramienta de generación de vídeo (Sora) y una suscripción «Pro» mensual de 200 dólares.

Google también reveló su nueva extensión de Chrome impulsada por IA, Project Mariner, que utiliza agentes para navegar por sitios web y completar tareas. En las pruebas comparadas con el punto de referencia WebVoyager para tareas web del mundo real, Mariner logró una tasa de éxito del 83,5% trabajando como un solo agente, dijo Google.

«Durante el último año, hemos estado invirtiendo en el desarrollo de modelos más agentes (o más inteligentes), lo que significa que pueden comprender más sobre el mundo que nos rodea, pensar varios pasos por delante y tomar medidas en nuestro nombre, con nuestra supervisión», escribió Pichai. en el anuncio.

La compañía planea implementar la integración Gemini 2.0 en toda su línea de productos, comenzando con el acceso experimental a la aplicación Gemini. En enero se realizará un lanzamiento más amplio, que incluirá la integración con las funciones de inteligencia artificial de la Búsqueda de Google, que actualmente llegan a más de mil millones de usuarios.

Pero no olvides a Claude

El lanzamiento de Gemini 2 se produce cuando Anthropic reveló silenciosamente su última actualización. Claude 3.5 Haiku es una versión más rápida de su familia de modelos de IA que afirma tener un rendimiento superior en tareas de codificación, con una puntuación del 40,6 % en el punto de referencia SWE-bench Verified.

Anthropic todavía está entrenando su modelo más potente, el Claude 3.5 Opus, cuyo lanzamiento está previsto para finales de 2025 tras una serie de retrasos.

Imagen: Antrópico

Tanto los servicios premium de Google como los de Anthropic tienen un precio de 20 dólares al mes, igualando el nivel básico ChatGPT Plus de OpenAI.

Claude 3.5 Haiku de Anthropic demostró ser mucho más rápido, más barato y más potente que Claude 3 Sonnet (el modelo de tamaño mediano de Anthropic de la generación anterior), con una puntuación del 88,1% en tareas de codificación HumanEval y del 85,6% en problemas matemáticos multilingües.

El modelo muestra una fortaleza particular en el procesamiento de datos, con compañías como Replit y Apollo reportando mejoras significativas en el refinamiento del código y la generación de contenido.

Claude 3.5 Haiku es bastante barato: 0,80 dólares por millón de tokens de entrada.

La compañía afirma que los usuarios pueden lograr hasta un 90% de ahorro de costos mediante el almacenamiento en caché rápido y una reducción adicional del 50% utilizando la API Message Batch, posicionando el modelo como una opción rentable para las empresas que buscan escalar. sus operaciones de IA y una opción muy interesante a considerar frente a OpenAI o1-mini, que cuesta $3 por un millón de tokens de entrada.

Editado por Sebastian Sinclair y Josh Quittner

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Salir de la versión móvil