El ranking de modelos IA de código abierto de Hugging Face

Hace poco apareció la noticia de un nuevo modelo que se había convertido en “el mejor” dentro de los de código abierto (puedes leerla en Zona-IA aquí). Eso me hizo reflexionar acerca de qué quería decir que ese (o cualquier otro) modelo era mejor o peor que los demás, y decidí investigar un poco.
Resulta que “mejor”, en el mundillo de los modelos de lenguaje de código abierto, viene a significar “en el primer puesto del leaderboard de Hugging Face. Como muchos sabréis (y para quienes no lo sepáis, podéis leer acerca de esta plataforma aquí) Hugging Face constituye LA referencia en el mundo de la inteligencia artificial de código abierto.
Fundada en 2016, Hugging Face es una empresa de tecnología con sede en Nueva York y París que se especializa en el procesamiento del lenguaje natural. Ofrece una amplia gama de herramientas, recursos y servicios para facilitar el desarrollo y la implementación de aplicaciones de IA, particularmente (aunque no solo) en el ámbito de los modelos de lenguaje. La misión de Hugging Face es avanzar en el campo del NLP democratizando el acceso a los modelos y fomentando la colaboración entre investigadores, desarrolladores y organizaciones.
Al profundizar, descubrí que el ranking depende de la puntuación que los modelos obtienen en una serie de pruebas estandarizadas que miden su rendimiento en diferentes aspectos. Creo que resulta interesante saber en qué consisten para conocer qué podemos esperar de los modelos.
Las pruebas a que se someten los sistemas incluidos en el ranking son las siguientes:
ARC
El AI2 Reasoning Challenge (ARC) es un conjunto de datos de preguntas y respuestas diseñado para fomentar la investigación en sistemas avanzados de respuesta a preguntas. Consta de 7,787 preguntas de ciencias de la escuela primaria, lo que lo convierte en el conjunto de datos de este tipo más grande en dominio público. Las preguntas se dividen en un conjunto de desafíos y un conjunto fácil, siendo el conjunto de desafíos el que contiene únicamente preguntas que fueron respondidas incorrectamente por tanto por un algoritmo basado en recuperación como por un algoritmo de co-ocurrencia de palabras. El ARC Corpus, un corpus de 14 millones de oraciones científicas relevantes para la tarea, también se proporciona.
El conjunto de datos ARC tiene la intención de ser más difícil que las pruebas anteriores como SQuAD o SNLI, ya que exige mayores conocimientos y capacidad de razonamiento. Las preguntas son preguntas naturales de ciencias de la escuela primaria que fueron redactadas para pruebas humanas. El ARC Corpus menciona conocimientos relevantes para el 95% de las preguntas del conjunto de prueba, pero el uso del corpus es opcional. Se probaron tres modelos de base neuronales, DecompAttn, BiDAF y DGEM, en el conjunto de prueba, pero ninguno pudo superar significativamente el rendimiento de un baseline aleatorio, lo que ilustra la dificultad de la tarea.
El Desafío ARC se diferencia del Desafío de Ciencia de Allen AI organizado por Kaggle en 2016 en tres aspectos importantes. En primer lugar, la creación de una división de desafíos tiene como objetivo evitar que las puntuaciones sean dominadas por algoritmos simples y fomentar la investigación sobre métodos más avanzados. En segundo lugar, se proporciona un corpus de ciencias junto con las preguntas para ayudar a comenzar, pero su uso es opcional. Finalmente, todas las preguntas, el corpus y los modelos son de acceso público.
El conjunto de datos ARC y el corpus están diseñados para ser un valioso recurso para la comunidad de IA. Proporcionan un gran conjunto diverso de preguntas que requieren un conocimiento y una razón avanzados, así como un corpus de oraciones científicas relevantes. El Desafío ARC es una oportunidad para que los investigadores prueben sus sistemas de respuesta a preguntas en un conjunto de datos difícil y realista.
Característica | Descripción |
---|---|
Número de preguntas | 7,787 |
Número de preguntas de prueba | 2,590 |
Número de preguntas fáciles | 5,197 |
Tamaño del ARC Corpus | 14 millones de oraciones científicas |
Conocimiento relevante en ARC Corpus | 95% de las preguntas de prueba |
Número de modelos de base | 3 |
Puntuación máxima del baseline en el conjunto de prueba | 36% (baseline aleatorio) |
En resumen, el conjunto de datos ARC y el corpus son un recurso importante para los investigadores que trabajan en sistemas avanzados de respuesta a preguntas. Proporcionan un gran conjunto diverso de preguntas que requieren un conocimiento y una razón avanzados, así como un corpus de oraciones científicas relevantes. El Desafío ARC es una oportunidad para que los investigadores prueben sus sistemas en un conjunto de datos difícil y realista y contribuyan al desarrollo de sistemas de respuesta a preguntas más avanzados.
HellaSwag
HellaSwag es un nuevo conjunto de datos de prueba para la inferencia del lenguaje natural de sentido común, introducido por Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi y Yejin Choi de la Escuela de Ingeniería de Ciencias de la Computación Paul G. Allen, Universidad de Washington y el Instituto Allen de Inteligencia Artificial. El conjunto de datos está diseñado para ser fácil de resolver para los humanos, con una tasa de precisión del 95%, pero difícil incluso para los modelos más avanzados, con una tasa de precisión del solo 48% (en 2019, cuando se diseñó esta prueba).
El conjunto de datos se crea utilizando el Filtrado Adversarial, un paradigma de recopilación de datos en el que una serie de discriminadores seleccionan iterativamente un conjunto adversarial de respuestas incorrectas generadas por máquinas. La clave de la prueba consiste en escalar la longitud y la complejidad de los ejemplos del conjunto de datos hacia una zona crítica ideal en la que el texto generado es ridículo para los humanos, pero a menudo se clasifica incorrectamente por los modelos más avanzados. La construcción de HellaSwag arroja luz sobre el funcionamiento interno de los modelos profundos preentrenados y sugiere un nuevo camino para la investigación de NLP, en el que los benchmarks coevolucionan con el estado de la técnica en evolución de forma adversarial.
El conjunto de datos de HellaSwag consta de 70.000 problemas y es fácil de resolver para los humanos, pero desafiante para las máquinas. Se crea utilizando una trifecta de generadores de vanguardia, discriminadores de vanguardia y texto de alta calidad. El conjunto de datos amplía el dominio original de subtítulos de vídeo de SWAG utilizando artículos de WikiHow, aumentando enormemente la diversidad del contexto y la longitud de la generación. La investigación revela una zona ideal -en torno a tres oraciones de contexto y dos oraciones generadas- en la que las generaciones son en su mayoría absurdas, incluso si los discriminadores de vanguardia no pueden decir la diferencia confiablemente entre estas generaciones y la verdad fundamental.
Característica | Descripción |
---|---|
Creadores | Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi y Yejin Choi |
Institución | Escuela de Ingeniería de Ciencias de la Computación Paul G. Allen, Universidad de Washington e Instituto Allen de Inteligencia Artificial |
Propósito | Probar las habilidades de inferencia del lenguaje natural de sentido común de las máquinas |
Tamaño | 70.000 problemas |
Precisión humana | 95% |
Precisión de la máquina | 48% (en 2019, creación de la prueba) |
Paradigma de recopilación de datos | Filtrado Adversarial |
Ampliación del conjunto de datos | Amplía el dominio original de subtítulos de video de SWAG utilizando artículos de WikiHow |
Zona ideal de discriminación | Aproximadamente tres oraciones de contexto y dos oraciones generadas |
Generadores de vanguardia | Utilizados para crear el conjunto de datos |
Discriminadores de vanguardia | Utilizados para crear el conjunto de datos |
Texto de alta calidad | Utilizado para crear el conjunto de datos |
MMLU****
La prueba de Comprensión de Lenguaje Multitarea Masiva (MMLU, Massive Multitask Language Understanding) es otro punto de referencia para evaluar los conocimientos y las habilidades de resolución de problemas de los modelos de lenguaje. Cubre 57 tareas en una amplia gama de temas, que incluyen matemáticas elementales, historia de los Estados Unidos, ciencias de la computación, derecho y más. El test está diseñado para medir la capacidad de un modelo para aplicar sus conocimientos a problemas del mundo real, en lugar de simplemente memorizar hechos.
Para obtener una alta precisión en la prueba MMLU, los modelos deben poseer amplios conocimientos del mundo y habilidades de resolución de problemas. El test cubre una amplia gama de temas, desde las matemáticas elementales hasta temas profesionales avanzados. También incluye preguntas que requieren que los modelos comprendan y apliquen precedentes legales, así como preguntas que prueban su capacidad para razonar sobre disyuntivas morales y éticas.
El test MMLU se diseñó para resultar difícil de superar para los modelos de lenguaje. Incluye preguntas que requieren que los modelos comprendan y apliquen conceptos complejos, así como preguntas que requieren que razonen sobre escenarios ambiguos o inespecíficos. Para lograr una alta precisión en la prueba, los modelos deben ser capaces de comprender y aplicar una amplia gama de habilidades lingüísticas y de razonamiento.
Los resultados de la prueba MMLU muestran que los modelos de lenguaje actuales están alcanzando un nivel de dominio cercano al rendimiento humano en una amplia gama de tareas del mundo real. A medida que el campo del procesamiento del lenguaje natural continúa avanzando, es probable que veamos modelos cada vez más sofisticados con un desempeño excelente en la prueba MMLU y en otros benchmarks similares.
Categoría de tarea | Número de tareas | Nivel de dificultad | Ejemplos |
---|---|---|---|
Matemáticas elementales | 6 | Elemental | Suma, resta, multiplicación, división |
Historia de los Estados Unidos | 3 | Secundaria | Revolución americana, Guerra Civil, Movimiento por los Derechos Civiles |
Ciencias de la computación | 5 | Universidad | Estructuras de datos, algoritmos, lenguajes de programación |
Derecho | 5 | Profesional | Precedentes legales, razonamiento legal, ética legal |
Otros | 33 | Variable | Temas diversos, incluyendo moralidad, ética y filosofía |
TruthfulQA
TruthfulQA es un estándar para evaluar la veracidad de los modelos de lenguaje al generar respuestas a preguntas. El estándar incluye 817 preguntas que abarcan 38 categorías como salud, ley, finanzas y política. Las preguntas han sido diseñadas para obtener respuestas falsas de los modelos debido a concepciones erróneas populares o creencias falsas. En el momento de su creación (2021), el mejor modelo fue veraz en el 58% de las preguntas, mientras que el rendimiento humano fue del 94%. De acuerdo con el ranking the Hugging Face, en el momento actual (febrero de 2024), la máxima puntuación la tiene Smaug, con 76,67. Los modelos más grandes son generalmente menos veraces que los pequeños, lo que contrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo. El estudio sugiere que el ajuste fino utilizando objetivos de entrenamiento distintos de la imitación de texto desde la web puede ser más prometedor para mejorar la veracidad.
Una de las preocupaciones con los modelos de lenguaje es que pueden generar declaraciones falsas, lo que puede llevar a la decepción y la desconfianza. TruthfulQA tiene como objetivo abordar esta preocupación proporcionando una forma de medir la veracidad de los modelos al generar respuestas a preguntas. El estándar cubre una amplia gama de temas y está diseñado para obtener respuestas falsas de los modelos debido a concepciones erróneas populares o creencias falsas. Los autores encontraron que los modelos a menudo generaban respuestas falsas que imitan concepciones erróneas populares, lo que puede ser más probable que engañe a los humanos.
Los autores probaron varios modelos en el estándar TruthfulQA, incluidos GPT-3, GPT-Neo/J, GPT-2 y un modelo basado en T5. Encontraron que los modelos más grandes eran generalmente menos veraces, lo que contrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo. Los autores sugieren que esto puede deberse a que los modelos más grandes producen más falsedades imitativas, que son respuestas falsas que tienen alta probabilidad en la distribución de entrenamiento. El ajuste fino utilizando objetivos de entrenamiento distintos de la imitación de texto desde la web puede ser más prometedor para mejorar la veracidad.
Característica | Descripción |
---|---|
Número de preguntas | 817 |
Número de categorías | 38 |
Rendimiento del mejor modelo | 58% de veracidad en preguntas (en 2021) |
Rendimiento humano | 94% de veracidad en preguntas |
Modelos más grandes menos veraces | Contrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo |
Falsedades imitativas | Respuestas falsas que tienen alta probabilidad en la distribución de entrenamiento |
Ajuste fino utilizando objetivos de entrenamiento distintos de la imitación | Puede ser más prometedor para mejorar la veracidad |
Modelos probados | GPT-3, GPT-Neo/J, GPT-2 y un modelo basado en T5 |
Preocupaciones con los modelos de lenguaje | Generar declaraciones falsas puede conducir a la decepción y la desconfianza |
Winogrande
Winogrande es un conjunto de datos de referencia a gran escala que consta de 44,000 problemas diseñados para evaluar el razonamiento de sentido común en sistemas de comprensión del lenguaje natural. El conjunto de datos está inspirado en el Winograd Schema Challenge (WSC), que es un conjunto de problemas de resolución de pronombres que son triviales para los humanos pero difíciles para las máquinas. Sin embargo, los avances recientes en los modelos de lenguaje neuronal han logrado una alta precisión en el WSC, lo que plantea preguntas sobre si estos modelos realmente han adquirido capacidades sólidas de sentido común o simplemente están explotando sesgos en el conjunto de datos.
Para abordar este problema, Winogrande emplea un método de construcción novedoso que involucra un procedimiento de colaboración colectiva cuidadosamente diseñado, seguido de una reducción sistemática de sesgos utilizando un nuevo algoritmo llamado AFLITE. AFLITE es una generalización de las asociaciones de palabras detectables por humanos a asociaciones de incrustaciones detectables por máquinas, lo que le permite reducir los sesgos en el conjunto de datos sin depender de anotaciones humanas. El conjunto de datos resultante es más grande y más difícil que el WSC original, lo que lo convierte en una prueba más desafiante para los sistemas de razonamiento de sentido común.
Las características técnicas de Winogrande incluyen:
- Gran escala: el conjunto de datos consta de 44.000 problemas, lo que lo hace significativamente más grande que el WSC original (que tenía solo 273 problemas).
- Crowdsourced (Colaboración Colectiva): los problemas en Winogrande se generaron utilizando un procedimiento de colaboración colectiva que implica seleccionar e instruir cuidadosamente a los trabajadores para crear problemas que sean desafiantes y libres de sesgos no deseados.
- Reducción de sesgos: el conjunto de datos se sometió a una reducción sistemática de sesgos utilizando el algoritmo AFLITE, que identifica y elimina los sesgos no deseados en los datos sin depender de anotaciones humanas.
- Filtrado Adversarial: el algoritmo AFLITE utiliza un enfoque de filtrado adversarial para identificar sesgos en los datos. Primero entrena un clasificador en el conjunto de datos para predecir la respuesta correcta a cada problema, luego identifica las instancias que son fáciles de predecir para el clasificador y las elimina del conjunto de datos
- Aprendizaje por transferencia: Winogrande proporciona capacidades de aprendizaje por transferencia, lo que permite ajustar los modelos entrenados en el conjunto de datos en otras tareas relacionadas, como WSC, DPR, COPA, KnowRef y Winogender.
Característica | Descripción |
---|---|
Número de problemas | 44.000 |
Inspirado en | Winograd Schema Challenge |
Método de construcción | Crowdsourcing y algoritmo AFLITE |
Técnica de reducción de sesgos | Algoritmo AFLITE |
Resultados IA | 59.4 – 79.1% (en el momento de su creación, 2019) |
Human Performance | 94.0% |
Número de datos de entrenamiento | 2% – 100% del conjunto de datos |
Artefactos de anotación detectados | Asociaciones de palabras y otros sesgos |
Filtrado adversarial | Empleado para identificar y eliminar datos sesgados |
GSM8K
El conjunto de datos GSM8K es una colección de 8.5K problemas de matemáticas de escuela primaria de alta calidad creados por escritores de problemas humanos. Fue diseñado para tener una alta diversidad lingüística mientras se basa en conceptos relativamente simples de matemáticas de escuela primaria. El conjunto de datos está segmentado en 7.5K problemas de entrenamiento y 1K problemas de prueba. Estos problemas utilizan entre 2 y 8 pasos para resolverse, y las soluciones implican principalmente realizar una secuencia de cálculos elementales utilizando operaciones aritméticas básicas (+ − ×÷) para llegar a la respuesta final. Un estudiante de secundaria brillante debería poder resolver cada problema.
Una de las características clave de GSM8K es su enfoque en las soluciones en lenguaje natural. A diferencia de otros conjuntos de datos que proporcionan soluciones en forma de ecuaciones o respuestas finales, GSM8K recopila soluciones en lenguaje natural. Este es el formato de datos más útil y general y se espera que arroje luz sobre las propiedades del monólogo interno de los modelos lingüísticos grandes. Se instruyó a los escritores de problemas para que explicaran su trabajo tanto como fuera posible, pero se les permitió escribir soluciones en sus propios estilos lingüísticos diversos.
GSM8K también incluye anotaciones de cálculo que fueron generadas por una combinación de lógica codificada a mano y un modelo de lenguaje afinado. Estas anotaciones no fueron proporcionadas por escritores humanos. Durante el entrenamiento, no se distingue entre los tokens anotados y el resto de la solución. Durante las pruebas, el muestreo del modelo se sobrescribe cuando existe una anotación bien formateada, específicamente reemplazando el token(s) directamente siguiente a “=” y dentro de <<. . . >>.
Característica | Descripción |
---|---|
Tamaño | 8.5K problemas |
División de entrenamiento/prueba | 7.5K/1K |
Dificultad del problema | 2-8 pasos |
Formato de solución | Lenguaje natural |
Anotaciones de cálculo | Generadas por una combinación de lógica codificada a mano y un modelo de lenguaje finetunado |
Público objetivo | Estudiantes de secundaria brillantes |
Diversidad lingüística | Alta |
Conceptos matemáticos | Conceptos relativamente simples de matemáticas de escuela primaria |
El ranking open source de Hugging FAce: un recurso esencial para evaluar modelos de lenguaje
En resumen, el ranking de Hugging Face es un recurso público accesible al público general que clasifica el rendimiento de diversos modelos de lenguaje de código abierto en una variedad de tareas de comprensión y generación del lenguaje natural. La tabla está diseñada para ayudar a desarrolladores, investigadores y usuarios a comparar las capacidades de diferentes modelos e identificar el más adecuado para su caso de uso específico.
Este ranking incluye un conjunto diverso de modelos, que van desde modelos pequeños y ligeros hasta los modelos más grandes disponibles, cada uno con sus fortalezas y debilidades. El ranking evalúa estos modelos según varios parámetros proporcionando una visión integral de su rendimiento.
La importancia de la evaluación comparativa en el panorama de la IA
La evaluación comparativa es un aspecto crucial del desarrollo de la IA, ya que permite a investigadores y desarrolladores evaluar el rendimiento de sus modelos e identificar áreas de mejora. Al mantener este ranking, Hugging Face brinda a la comunidad de IA un recurso muy valioso para impulsar la innovación y avanzar en el estado del arte en el desarrollo de modelos de lenguaje.
Además, el ranking promueve la transparencia y la colaboración dentro de la comunidad de IA. Al compartir los resultados del rendimiento de diversos modelos, los investigadores y desarrolladores pueden aprender unos de otros, construir sobre los modelos existentes y contribuir al conocimiento colectivo en el campo. Este enfoque colaborativo es esencial para impulsar el progreso en la IA y garantizar que los beneficios de la tecnología se compartan ampliamente.
El futuro de la tabla de líderes LLM abierta
A medida que el campo de la IA continúa evolucionando, el ranking jugará previsiblemente un papel cada vez más importante. No hay que olvidar que para los proveedores de sistemas IA la posición en los rankings es un elemento tan importante que llegan a decidir hacer trampa con ellos (para prueba, aquí). Con el creciente número de modelos de código abierto disponibles, la tabla proporcionará un recurso valioso para que investigadores, desarrolladores y organizaciones evalúen y comparen estos modelos y tomen decisiones informadas sobre su uso.
Además, a medida que la tabla se expande para incluir más modelos y evaluarlos en un rango más amplio de tareas, proporciona una vista más completa y matizada del rendimiento de diferentes modelos. Dentro de poco, seguramente veremos el número de pruebas ampliarse o cambiar, ya que evolucionan al mismo ritmo que las IA que deben evaluar. Esto permitirá a desarrolladores, investigadores y usuarios comprender mejor las fortalezas y debilidades de cada modelo e identificar el más adecuado para su aplicación específica.
1 thought on “El ranking de modelos IA de código abierto de Hugging Face”