La Revolución Francesa en IA: Mistral Large 2

0

Mistral es uno de esos nombres que se mencionan periódicamente al hablar sobre inteligencia artificial (por ejemplo, aquí) y, aunque puede que esta organización no sea tan conocida como otras de IA de alto perfil, su importancia en el ámbito de la investigación y el desarrollo de tecnologías de inteligencia artificial no debe subestimarse.

En un panorama en el que la inteligencia artificial amenaza con transformar industrias y sociedades, la competencia global por liderar este campo es feroz. Europa, que ha sido tradicionalmente un centro de innovación, se encuentra en una encrucijada. En este contexto, una compañía francesa ha dado un paso significativo con el lanzamiento del modelo Mistral Large 2, una innovación que podría cambiar el panorama de la IA en el continente.

Mistral Large 2

El modelo Mistral Large 2 es la creación más ambiciosa de la compañía francesa hasta la fecha. Este modelo de IA destaca destaca en algunos benchmarks, aunque quizá sus capacidades se han exagerado un tanto.

El lanzamiento del modelo Mistral Large 2 puede tener un impacto importante en Europa, sobre todo en términos de soberanía tecnológica. La dependencia de tecnología extranjera en materia de inteligencia artificial es una preocupación constante para Europa. Tras el reciente anuncio de que Meta no ofrecerá sus modelos en este territorio debido a las características regulatorias, las compañías europeas pueden ser la tabla de salvación de la zona. Con el modelo Mistral Large 2, Europa tiene la oportunidad de desarrollar y controlar su propia tecnología de IA. Esto no solo fortalece su independencia tecnológica, sino que también asegura que los datos y la información crítica se mantengan dentro de sus fronteras (algo fundamental en el marco regulatorio europeo).

¿Es el mejor?

La respuesta breve es no. Veamos su rendimiento:

BenchmarkMistral Large 2Llama 405BGPT-4Claude 3.5 Sonnet
MMLU84,0%88,6%88,7%88,3%
HellaSwag89,2%90,3%95,3%94,0%
ARC (25-shot)85,7%89,2%95,9%95,1%
TruthfulQA62,5%65,2%71,2%70,8%
HumanEval73,2%74,8%87,0%85,5%
GSM8K82,6%84,1%92,0%91,5%
Fuente: Towards AGI en Medium

Estos benchmarks se refieren, a grandes rasgos, a las siguientes características:

BenchmarkObjetivo
MMLUEvalúa si un modelo de inteligencia artificial puede aprender y aplicar conocimientos nuevos sin necesidad de entrenamiento adicional. Se enfoca en evaluar su capacidad para resolver problemas en situaciones desconocidas.
HellaSwagMide la capacidad de un modelo para demostrar sentido común y comprensión del lenguaje natural. Se evalúa si el modelo puede entender el contexto y responder de manera lógica y coherente.
ARC (25-shot)Evalúa la capacidad de un modelo para aprender y aplicar habilidades nuevas con solo unos pocos ejemplos (en este caso, 25). Se enfoca en medir su capacidad para resolver problemas y adaptarse a nuevas situaciones.
TruthfulQAVerifica si un modelo proporciona respuestas precisas y veraces a preguntas. Se enfoca en evaluar si el modelo puede distinguir entre información correcta e incorrecta, y si puede proporcionar respuestas precisas incluso cuando los humanos podrían responder de manera equivocada.
HumanEvalEvalúa la capacidad de un modelo para generar programas informáticos correctos a partir de instrucciones proporcionadas por el usuario. Se enfoca en medir la capacidad del modelo para entender y aplicar instrucciones de manera precisa.
GSM8KMide la capacidad de un modelo para resolver problemas matemáticos creados por personas. Se enfoca en evaluar si el modelo puede aplicar conceptos matemáticos y resolver problemas de manera precisa y lógica.

Sin embargo, en mi experiencia, no ser el mejor significa muy poco con los modelos actuales, por diversos motivos. El principal es que, a pesar de las puntuaciones, los casos de uso real de los diferentes sistemas de IA demuestran que las respuestas de modelos teóricamente más débiles pueden ser mejores que las de los fuertes, en función de las necesidades del usuario.

Por tanto, si nos imaginamos a Mistral Large 2 como un auxiliar, tendremos que nuestro ayudante es un individuo con una mente ágil y capaz, pero no sin limitaciones. En ciertas áreas, como el conocimiento general y la comprensión del lenguaje natural, se desempeña con solvencia (obteniendo resultados respetables en pruebas como MMLU y HellaSwag). También muestra una capacidad para aprender y adaptarse a nuevas situaciones (como lo demuestra su resultado en ARC 25-shot). Sin embargo, su tendencia a proporcionar respuestas imprecisas o incorrectas en ciertas situaciones es un punto débil que no puede ser ignorado (como lo evidencia su resultado en TruthfulQA).

A pesar de sus debilidades, nuestro ayudante sigue siendo un recurso valioso en ciertas áreas, como la resolución de problemas matemáticos (donde obtiene resultados destacables en pruebas como GSM8K). Sin embargo, su capacidad para generar programas informáticos es solo decente, y requiere supervisión y revisión para asegurarse de que sus creaciones sean correctas y funcionales. En resumen, nuestro ayudante es un individuo con habilidades y debilidades, que puede ser útil en ciertas situaciones, pero que requiere una evaluación cuidadosa y una supervisión atenta para asegurarse de que su trabajo sea preciso y fiable.

¿Qué significa todo esto?

Como ya he dicho en otras ocasiones, creo que los benchmarks son (cada vez más) solamente orientaciones. La complejidad de los sistemas de IA es tan amplia, la diversidad de casos de usos tan variada y la diferencia entre capacidades de los usuarios tan abismal, que es imposible asegurar cuál es la mejor plataforma para un uso dado de un usuario concreto.

Sin embargo, a falta de pruebas de la vida real, las cifras nos orientan. Mistral Large 2 se acerca en algunos puntos a los modelos más potentes, mientras que en otros no es capaz de alcanzar resultados punteros. En la práctica, es un modelo que puede atender a la mayoría de necesidades sin demasiados problemas. Sobre todo, si mantenemos la perspectiva y tenemos en cuenta que estas puntuaciones son superiores a las de cualquier modelo de hace seis meses.

Conclusión

Cualquier nuevo modelo de IA es bienvenido. De alguna manera, la excitación en torno a la inteligencia artificial está ralentizando su ritmo y los diversos intentos de adoptarla están enfrentándose a una variedad de obstáculos que dependen de las características de la organización y de la actividad a que se dedica.

En el caso de la Administración pública, a esto se unen la ausencia de políticas u orientaciones claras, la falta de inversión en formación y en tecnología IA y la escasez de personal capacitado en inteligencia artificial y análisis de datos. Esto genera un escenario que impide aprovechar al máximo los beneficios que la IA puede ofrecer en términos de eficiencia, transparencia y mejora de los servicios públicos. En este sentido, es fundamental que las Administraciones públicas comiencen a abordar estas carencias y a desarrollar políticas y programas que fomenten la adopción de la IA de manera responsable y ética, garantizando que los ciudadanos puedan beneficiarse de sus ventajas sin comprometer su privacidad ni seguridad.

Leave a Reply

Your email address will not be published. Required fields are marked *