Databricks presenta DBRX: un potente nuevo modelo abierto de lenguaje

Hemos tenido unos cuantos días de descanso, pero ya parecía extraño que no hubiera anuncios de nuevos modelos en la arena de la inteligencia artificial (lo siento, las pruebas con Sora no cuentan). Sin embargo, la sequía termina hoy.
Databricks, proveedor global de soluciones de datos e inteligencia artificial, ha anunciado el lanzamiento de DBRX, un nuevo modelo grande de lenguaje de código abierto que pretende hacerse un hueco en el panorama de los modelos libres. Es una mecánica a la que sospecho que nos vamos a acostumbrar en los meses que vienen: a medida que se acelera (o intenta acelerar) la adopción de sistemas de IA en entornos organizacionales, los proveedores de servicios procurarán disponer de modelos propios que puedan darles una ventaja competitiva o, al menos, reducir su dependencia de factores externos (Anthropic, OpenAI, Google, Meta).
DBRX, de acuerdo con los benchmarks presentados por Databricks, consigue un rendimiento interesante en una serie de benchmarks, y resulta competitivo en el ámbito de los modelos abiertos.
¿Qué es DBRX?
DBRX es un LLM basado en transformadores y de solo decodificación. El modelo emplea una arquitectura de mezcla de expertos (MoE) de grano fino, que comprende 132B parámetros totales, de los cuales solamente 36B están activos para cualquier entrada dada. DBRX ha sido preentrenado con un conjunto de datos de 12T tokens, que incluye tanto datos de texto como de código.
La arquitectura del modelo incorpora varias características clave, como codificaciones de posición rotatorias (RoPE), unidades lineales con compuerta (GLU) y atención de consulta agrupada (GQA). Además, DBRX utiliza el tokenizador GPT-4, lo que contribuye a su rendimiento.
Comparación con los principales modelos abiertos
En comparación con otros modelos abiertos establecidos, DBRX demuestra un rendimiento superior en varios benchmarks. En el Hugging Face Open LLM Leaderboard, que promedia las puntuaciones de tareas como ARC-Challenge, HellaSwag y MMLU, DBRX Instruct logra una puntuación del 74,5%, superando a modelos como Mixtral Instruct (72,7%) y LLaMA2-70B (67,9%).
DBRX Instruct también sobresale en las tareas de programación y matemáticas. En HumanEval, obtiene una puntuación del 70,1%, superando a modelos como Grok-1 (63,2%) y Mixtral Instruct (54,8%). De manera similar, en GSM8k, DBRX Instruct logra una puntuación del 66,9%, superando a Grok-1 (62,9%) y Mixtral Instruct (61,1%).
Gauntlet es un benchmark diseñado por Databricks para evaluar las capacidades de los LLM en una serie de diferentes tareas, lo que permite una comparación amplia de las mismas.
Modelo | HF Leaderboard | Gauntlet | HumanEval | GSM8k |
---|---|---|---|---|
DBRX Instruct | 74.5% | 66.8% | 70.1% | 66.9% |
Mixtral Instruct | 72.7% | 60.7% | 54.8% | 61.1% |
LLaMA2-70B Chat | 62.4% | 52.8% | 32.2% | 26.7% |
LLaMA2-70B Base | 67.9% | 56.4% | 31.0% | 54.1% |
Grok-1 | – | – | 63.2% | 62.9% |
Comparación con los principales modelos cerrados
En la comparación con los modelos cerrados, los resultados de DBRX Instruct, en general, no le permiten competir con los modelos de pago, aunque sí con los gratuitos. Según las puntuaciones informadas por cada creador de modelos, DBRX Instruct supera a GPT-3.5 y es competitivo con Gemini 1.0 Pro y Mistral Medium, aunque no con los sistemas más avanzados.
En el estándar MMLU, DBRX Instruct obtiene una puntuación del 73,7%, superando a GPT-3.5 (70,0%) y Gemini 1.0 Pro (71,8%). También demuestra un sólido rendimiento en HellaSwag, logrando una puntuación del 89,0%, en comparación con el 85,5% de GPT-3.5 y el 84,7% de Gemini 1.0 Pro.
Modelo | MT Bench (corregido por inflexión) | MMLU | HellaSwag | HumanEval | GSM8k |
---|---|---|---|---|---|
DBRX Instruct | 8.39 | 73.7% | 89.0% | 70.1% | 72.8% |
GPT-3.5 | – | 70.0% | 85.5% | 48.1% | 57.1% |
GPT-4 | 8.41 | 86.4% | 95.3% | 67.0% | 92.0% |
Claude 3 Haiku | 8.54 | 75.2% | 85.9% | 75.9% | 88.9% |
Claude 3 Sonnet | 9.03 | 79.0% | 89.0% | 73.0% | 92.3% |
Claude 3 Opus | 8.23 | 86.8% | 95.4% | 84.9% | 95.0% |
Gemini 1.0 Pro | – | 71.8% | 84.7% | 67.7% | 86.5% |
Gemini 1.5 Pro | 8.05 | 81.9% | 92.5% | 71.9% | 91.7% |
Mistral Medium | 8.90 | 75.3% | 88.0% | 38.4% | 66.7% |
Mistral Large | – | 81.2% | 89.2% | 45.1% | 81.0% |
Tareas de contexto amplio y RAG (Retrieval Augmented Generation)
DBRX Instruct ha sido entrenado en una ventana de contexto de 32K tokens, por lo que presenta algunas ventajas frente a modelos a priori más potentes, pero con menos contexto. En los benchmarks KV-Pairs y HotpotQAXL, DBRX Instruct supera a GPT-3.5 Turbo en todas las longitudes de contexto y posiciones de secuencia, con la excepción de una instancia. Su rendimiento es comparable al de Mixtral Instruct en este aspecto.
En las tareas de generación aumentada por recuperación (RAG), donde se proporciona contenido relevante junto con el prompt, DBRX Instruct demuestra ser competitivo con modelos abiertos como Mixtral Instruct y LLaMA2-70B Chat, así como con la versión actual de GPT-3.5 Turbo.
Eficiencia
Una de las características destacadas de DBRX es su eficiencia tanto en el entrenamiento como en la inferencia. De acuerdo con Databricks, la arquitectura MoE empleada por DBRX da como resultado mejoras sustanciales en la eficiencia computacional durante el entrenamiento. Por ejemplo, una versión más pequeña de DBRX llamada DBRX MoE-B requirió 1,7 veces menos FLOPs para alcanzar una puntuación comparable en el Databricks LLM Gauntlet en comparación con LLaMA2-13B, a pesar de tener la mitad de parámetros activos.
La canalización de preentrenamiento de LLM de extremo a extremo utilizada por Databricks también se ha vuelto casi 4 veces más eficiente en términos de computación en los últimos diez meses. Esta mejora puede atribuirse a varios factores, incluyendo el uso de una arquitectura MoE, mejores estrategias de optimización y datos de preentrenamiento de mayor calidad.
En términos de eficiencia de inferencia, DBRX, gracias a su arquitectura MoE y su infraestructura de servicio optimizada, logra un rendimiento de 2 a 3 veces mayor que un modelo no MoE de 132B. Esto permite a DBRX lograr un mejor equilibrio entre la calidad del modelo y la eficiencia de inferencia en comparación con los modelos densos.
Conclusión
La presentación de DBRX añade otro modelo al panorama de la inteligencia artificial de código abierto. Su rendimiento, arquitectura e integración con la plataforma Databricks muestran el camino a seguir para otros operadores. El futuro será juez de su éxito.