Google presenta Gemini 1.5: un millón de tokens

Google DeepMind, empresa perteneciente a Alphabet (matriz de Google), ha anunciado hace solamente unas horas el lanzamiento de su modelo de próxima generación: Gemini 1.5. Este nuevo modelo representa un cambio significativo en el enfoque de la compañía y ofrece un rendimiento drásticamente mejorado gracias a innovaciones en investigación e ingeniería en casi todas las partes de su infraestructura y desarrollo de modelos básicos.
Novedades de Gemini 1.5 Pro
El primer modelo que se lanzará para pruebas iniciales es Gemini 1.5 Pro, un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas y funcionar a un nivel similar al modelo más grande hasta la fecha, Gemini 1.0 Ultra. Además, introduce una característica experimental innovadora en la comprensión de contextos prolongados.
Gemini 1.5 Pro viene con una ventana de contexto estándar de 128,000 tokens. Sin embargo, a partir de hoy, un grupo limitado de desarrolladores y clientes empresariales pueden probarlo con una ventana contextual de hasta 1 millón de tokens a través de AI Studio y Vertex AI en vista previa privada.
Arquitectura de Mezcla de Expertos (MoE)
Gemini 1.5 se basa en la investigación líder sobre arquitectura Transformer y Mezcla de Expertos (MoE). Mientras que un Transformer tradicional funciona como una gran red neuronal, los modelos MoE se dividen en redes neuronales “expertas” más pequeñas. Esto permite que el modelo aprenda a activar selectivamente solo las vías expertas más relevantes en su red neuronal, mejorando enormemente la eficiencia del modelo.
Google ha sido uno de los primeros en adoptar y pionero de la técnica MoE para el aprendizaje profundo a través de investigaciones como Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 y muchos más.
Mayor Contexto y Capacidades Más Útiles
La “ventana contextual” de un modelo de IA está formada por tokens, que son los componentes básicos utilizados para procesar la información. Los tokens pueden ser partes enteras o subsecciones de palabras, imágenes, vídeos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil.
A través de una serie de innovaciones de aprendizaje automático, se ha aumentado la capacidad de la ventana de contexto de 1.5 Pro mucho más allá de los 32,000 tokens originales de Gemini 1.0. Ahora puede ejecutar hasta 1 millón de tokens en producción.
Razonamiento complejo y mejor comprensión multimodal
Gracias a su mayor ventana contextual, 1.5 Pro puede analizar, clasificar y resumir grandes cantidades de contenido dentro de un mensaje determinado, así como realizar tareas de comprensión y razonamiento altamente sofisticadas para diferentes modalidades, incluido el vídeo.
Rendimiento mejorado
Cuando se probó en un panel completo de evaluaciones de texto, código, imagen, audio y video, 1.5 Pro supera a 1.0 Pro en el 87% de los puntos de referencia utilizados para desarrollar los modelos de lenguajes grandes (LLM) de la compañía. Además, muestra impresionantes habilidades de “aprendizaje en contexto”.
Pruebas de ética y seguridad extensas
Google DeepMind se asegura de que sus modelos se sometan a exhaustivas pruebas de ética y seguridad, integrando estos aprendizajes en sus procesos de gobernanza y desarrollo y evaluación de modelos para mejorar continuamente sus sistemas de IA. Antes del lanzamiento de 1.5 Pro, se han realizado evaluaciones exhaustivas en áreas que incluyen la seguridad del contenido y los daños a la representación, y se están desarrollando más pruebas que tengan en cuenta las novedosas capacidades de contexto largo de 1.5 Pro.
Claves de la Noticia
- Google DeepMind anuncia el lanzamiento de Gemini 1.5, su modelo de IA de próxima generación.
- Gemini 1.5 ofrece un rendimiento drásticamente mejorado gracias a innovaciones en investigación e ingeniería.
- El primer modelo que se lanzará para pruebas iniciales es Gemini 1.5 Pro, un modelo multimodal de tamaño mediano y con una característica experimental en la comprensión de contextos prolongados.
- Gemini 1.5 se basa en la arquitectura de Mezcla de Expertos (MoE), que permite una mayor eficiencia en el modelo.
- La ventana contextual de 1.5 Pro puede ejecutar hasta 1 millón de tokens en producción.
- 1.5 Pro puede analizar, clasificar y resumir grandes cantidades de contenido, así como realizar tareas de comprensión y razonamiento altamente sofisticadas para diferentes modalidades.
- En las pruebas, 1.5 Pro supera a 1.0 Pro en el 87% de los puntos de referencia de los modelos de lenguajes grandes (LLM).
- Google DeepMind se asegura de que sus modelos se sometan a exhaustivas pruebas de ética y seguridad antes de su lanzamiento.
Enlaces externos