El ranking de modelos IA de código abierto de Hugging Face

1

Hace poco apareció la noticia de un nuevo modelo que se había convertido en “el mejor” dentro de los de código abierto (puedes leerla en Zona-IA aquí). Eso me hizo reflexionar acerca de qué quería decir que ese (o cualquier otro) modelo era mejor o peor que los demás, y decidí investigar un poco.

Resulta que “mejor”, en el mundillo de los modelos de lenguaje de código abierto, viene a significar “en el primer puesto del leaderboard de Hugging Face. Como muchos sabréis (y para quienes no lo sepáis, podéis leer acerca de esta plataforma aquí) Hugging Face constituye LA referencia en el mundo de la inteligencia artificial de código abierto.

Fundada en 2016, Hugging Face es una empresa de tecnología con sede en Nueva York y París que se especializa en el procesamiento del lenguaje natural. Ofrece una amplia gama de herramientas, recursos y servicios para facilitar el desarrollo y la implementación de aplicaciones de IA, particularmente (aunque no solo) en el ámbito de los modelos de lenguaje. La misión de Hugging Face es avanzar en el campo del NLP democratizando el acceso a los modelos y fomentando la colaboración entre investigadores, desarrolladores y organizaciones.

Al profundizar, descubrí que el ranking depende de la puntuación que los modelos obtienen en una serie de pruebas estandarizadas que miden su rendimiento en diferentes aspectos. Creo que resulta interesante saber en qué consisten para conocer qué podemos esperar de los modelos.

Las pruebas a que se someten los sistemas incluidos en el ranking son las siguientes:

ARC

El AI2 Reasoning Challenge (ARC) es un conjunto de datos de preguntas y respuestas diseñado para fomentar la investigación en sistemas avanzados de respuesta a preguntas. Consta de 7,787 preguntas de ciencias de la escuela primaria, lo que lo convierte en el conjunto de datos de este tipo más grande en dominio público. Las preguntas se dividen en un conjunto de desafíos y un conjunto fácil, siendo el conjunto de desafíos el que contiene únicamente preguntas que fueron respondidas incorrectamente por tanto por un algoritmo basado en recuperación como por un algoritmo de co-ocurrencia de palabras. El ARC Corpus, un corpus de 14 millones de oraciones científicas relevantes para la tarea, también se proporciona.

El conjunto de datos ARC tiene la intención de ser más difícil que las pruebas anteriores como SQuAD o SNLI, ya que exige mayores conocimientos y capacidad de razonamiento. Las preguntas son preguntas naturales de ciencias de la escuela primaria que fueron redactadas para pruebas humanas. El ARC Corpus menciona conocimientos relevantes para el 95% de las preguntas del conjunto de prueba, pero el uso del corpus es opcional. Se probaron tres modelos de base neuronales, DecompAttn, BiDAF y DGEM, en el conjunto de prueba, pero ninguno pudo superar significativamente el rendimiento de un baseline aleatorio, lo que ilustra la dificultad de la tarea.

El Desafío ARC se diferencia del Desafío de Ciencia de Allen AI organizado por Kaggle en 2016 en tres aspectos importantes. En primer lugar, la creación de una división de desafíos tiene como objetivo evitar que las puntuaciones sean dominadas por algoritmos simples y fomentar la investigación sobre métodos más avanzados. En segundo lugar, se proporciona un corpus de ciencias junto con las preguntas para ayudar a comenzar, pero su uso es opcional. Finalmente, todas las preguntas, el corpus y los modelos son de acceso público.

El conjunto de datos ARC y el corpus están diseñados para ser un valioso recurso para la comunidad de IA. Proporcionan un gran conjunto diverso de preguntas que requieren un conocimiento y una razón avanzados, así como un corpus de oraciones científicas relevantes. El Desafío ARC es una oportunidad para que los investigadores prueben sus sistemas de respuesta a preguntas en un conjunto de datos difícil y realista.

CaracterísticaDescripción
Número de preguntas7,787
Número de preguntas de prueba2,590
Número de preguntas fáciles5,197
Tamaño del ARC Corpus14 millones de oraciones científicas
Conocimiento relevante en ARC Corpus95% de las preguntas de prueba
Número de modelos de base3
Puntuación máxima del baseline en el conjunto de prueba36% (baseline aleatorio)

En resumen, el conjunto de datos ARC y el corpus son un recurso importante para los investigadores que trabajan en sistemas avanzados de respuesta a preguntas. Proporcionan un gran conjunto diverso de preguntas que requieren un conocimiento y una razón avanzados, así como un corpus de oraciones científicas relevantes. El Desafío ARC es una oportunidad para que los investigadores prueben sus sistemas en un conjunto de datos difícil y realista y contribuyan al desarrollo de sistemas de respuesta a preguntas más avanzados.

HellaSwag

HellaSwag es un nuevo conjunto de datos de prueba para la inferencia del lenguaje natural de sentido común, introducido por Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi y Yejin Choi de la Escuela de Ingeniería de Ciencias de la Computación Paul G. Allen, Universidad de Washington y el Instituto Allen de Inteligencia Artificial. El conjunto de datos está diseñado para ser fácil de resolver para los humanos, con una tasa de precisión del 95%, pero difícil incluso para los modelos más avanzados, con una tasa de precisión del solo 48% (en 2019, cuando se diseñó esta prueba).

El conjunto de datos se crea utilizando el Filtrado Adversarial, un paradigma de recopilación de datos en el que una serie de discriminadores seleccionan iterativamente un conjunto adversarial de respuestas incorrectas generadas por máquinas. La clave de la prueba consiste en escalar la longitud y la complejidad de los ejemplos del conjunto de datos hacia una zona crítica ideal en la que el texto generado es ridículo para los humanos, pero a menudo se clasifica incorrectamente por los modelos más avanzados. La construcción de HellaSwag arroja luz sobre el funcionamiento interno de los modelos profundos preentrenados y sugiere un nuevo camino para la investigación de NLP, en el que los benchmarks coevolucionan con el estado de la técnica en evolución de forma adversarial.

El conjunto de datos de HellaSwag consta de 70.000 problemas y es fácil de resolver para los humanos, pero desafiante para las máquinas. Se crea utilizando una trifecta de generadores de vanguardia, discriminadores de vanguardia y texto de alta calidad. El conjunto de datos amplía el dominio original de subtítulos de vídeo de SWAG utilizando artículos de WikiHow, aumentando enormemente la diversidad del contexto y la longitud de la generación. La investigación revela una zona ideal -en torno a tres oraciones de contexto y dos oraciones generadas- en la que las generaciones son en su mayoría absurdas, incluso si los discriminadores de vanguardia no pueden decir la diferencia confiablemente entre estas generaciones y la verdad fundamental.

CaracterísticaDescripción
CreadoresRowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi y Yejin Choi
InstituciónEscuela de Ingeniería de Ciencias de la Computación Paul G. Allen, Universidad de Washington e Instituto Allen de Inteligencia Artificial
PropósitoProbar las habilidades de inferencia del lenguaje natural de sentido común de las máquinas
Tamaño70.000 problemas
Precisión humana95%
Precisión de la máquina48% (en 2019, creación de la prueba)
Paradigma de recopilación de datosFiltrado Adversarial
Ampliación del conjunto de datosAmplía el dominio original de subtítulos de video de SWAG utilizando artículos de WikiHow
Zona ideal de discriminaciónAproximadamente tres oraciones de contexto y dos oraciones generadas
Generadores de vanguardiaUtilizados para crear el conjunto de datos
Discriminadores de vanguardiaUtilizados para crear el conjunto de datos
Texto de alta calidadUtilizado para crear el conjunto de datos


MMLU****

La prueba de Comprensión de Lenguaje Multitarea Masiva (MMLU, Massive Multitask Language Understanding) es otro punto de referencia para evaluar los conocimientos y las habilidades de resolución de problemas de los modelos de lenguaje. Cubre 57 tareas en una amplia gama de temas, que incluyen matemáticas elementales, historia de los Estados Unidos, ciencias de la computación, derecho y más. El test está diseñado para medir la capacidad de un modelo para aplicar sus conocimientos a problemas del mundo real, en lugar de simplemente memorizar hechos.

Para obtener una alta precisión en la prueba MMLU, los modelos deben poseer amplios conocimientos del mundo y habilidades de resolución de problemas. El test cubre una amplia gama de temas, desde las matemáticas elementales hasta temas profesionales avanzados. También incluye preguntas que requieren que los modelos comprendan y apliquen precedentes legales, así como preguntas que prueban su capacidad para razonar sobre disyuntivas morales y éticas.

El test MMLU se diseñó para resultar difícil de superar para los modelos de lenguaje. Incluye preguntas que requieren que los modelos comprendan y apliquen conceptos complejos, así como preguntas que requieren que razonen sobre escenarios ambiguos o inespecíficos. Para lograr una alta precisión en la prueba, los modelos deben ser capaces de comprender y aplicar una amplia gama de habilidades lingüísticas y de razonamiento.

Los resultados de la prueba MMLU muestran que los modelos de lenguaje actuales están alcanzando un nivel de dominio cercano al rendimiento humano en una amplia gama de tareas del mundo real. A medida que el campo del procesamiento del lenguaje natural continúa avanzando, es probable que veamos modelos cada vez más sofisticados con un desempeño excelente en la prueba MMLU y en otros benchmarks similares.

Categoría de tareaNúmero de tareasNivel de dificultadEjemplos
Matemáticas elementales6ElementalSuma, resta, multiplicación, división
Historia de los Estados Unidos3SecundariaRevolución americana, Guerra Civil, Movimiento por los Derechos Civiles
Ciencias de la computación5UniversidadEstructuras de datos, algoritmos, lenguajes de programación
Derecho5ProfesionalPrecedentes legales, razonamiento legal, ética legal
Otros33VariableTemas diversos, incluyendo moralidad, ética y filosofía

TruthfulQA

TruthfulQA es un estándar para evaluar la veracidad de los modelos de lenguaje al generar respuestas a preguntas. El estándar incluye 817 preguntas que abarcan 38 categorías como salud, ley, finanzas y política. Las preguntas han sido diseñadas para obtener respuestas falsas de los modelos debido a concepciones erróneas populares o creencias falsas. En el momento de su creación (2021), el mejor modelo fue veraz en el 58% de las preguntas, mientras que el rendimiento humano fue del 94%. De acuerdo con el ranking the Hugging Face, en el momento actual (febrero de 2024), la máxima puntuación la tiene Smaug, con 76,67. Los modelos más grandes son generalmente menos veraces que los pequeños, lo que contrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo. El estudio sugiere que el ajuste fino utilizando objetivos de entrenamiento distintos de la imitación de texto desde la web puede ser más prometedor para mejorar la veracidad.

Una de las preocupaciones con los modelos de lenguaje es que pueden generar declaraciones falsas, lo que puede llevar a la decepción y la desconfianza. TruthfulQA tiene como objetivo abordar esta preocupación proporcionando una forma de medir la veracidad de los modelos al generar respuestas a preguntas. El estándar cubre una amplia gama de temas y está diseñado para obtener respuestas falsas de los modelos debido a concepciones erróneas populares o creencias falsas. Los autores encontraron que los modelos a menudo generaban respuestas falsas que imitan concepciones erróneas populares, lo que puede ser más probable que engañe a los humanos.

Los autores probaron varios modelos en el estándar TruthfulQA, incluidos GPT-3, GPT-Neo/J, GPT-2 y un modelo basado en T5. Encontraron que los modelos más grandes eran generalmente menos veraces, lo que contrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo. Los autores sugieren que esto puede deberse a que los modelos más grandes producen más falsedades imitativas, que son respuestas falsas que tienen alta probabilidad en la distribución de entrenamiento. El ajuste fino utilizando objetivos de entrenamiento distintos de la imitación de texto desde la web puede ser más prometedor para mejorar la veracidad.

CaracterísticaDescripción
Número de preguntas817
Número de categorías38
Rendimiento del mejor modelo58% de veracidad en preguntas (en 2021)
Rendimiento humano94% de veracidad en preguntas
Modelos más grandes menos veracesContrasta con otras tareas de NLP en las que el rendimiento mejora con el tamaño del modelo
Falsedades imitativasRespuestas falsas que tienen alta probabilidad en la distribución de entrenamiento
Ajuste fino utilizando objetivos de entrenamiento distintos de la imitaciónPuede ser más prometedor para mejorar la veracidad
Modelos probadosGPT-3, GPT-Neo/J, GPT-2 y un modelo basado en T5
Preocupaciones con los modelos de lenguajeGenerar declaraciones falsas puede conducir a la decepción y la desconfianza

Winogrande

Winogrande es un conjunto de datos de referencia a gran escala que consta de 44,000 problemas diseñados para evaluar el razonamiento de sentido común en sistemas de comprensión del lenguaje natural. El conjunto de datos está inspirado en el Winograd Schema Challenge (WSC), que es un conjunto de problemas de resolución de pronombres que son triviales para los humanos pero difíciles para las máquinas. Sin embargo, los avances recientes en los modelos de lenguaje neuronal han logrado una alta precisión en el WSC, lo que plantea preguntas sobre si estos modelos realmente han adquirido capacidades sólidas de sentido común o simplemente están explotando sesgos en el conjunto de datos.

Para abordar este problema, Winogrande emplea un método de construcción novedoso que involucra un procedimiento de colaboración colectiva cuidadosamente diseñado, seguido de una reducción sistemática de sesgos utilizando un nuevo algoritmo llamado AFLITE. AFLITE es una generalización de las asociaciones de palabras detectables por humanos a asociaciones de incrustaciones detectables por máquinas, lo que le permite reducir los sesgos en el conjunto de datos sin depender de anotaciones humanas. El conjunto de datos resultante es más grande y más difícil que el WSC original, lo que lo convierte en una prueba más desafiante para los sistemas de razonamiento de sentido común.

Las características técnicas de Winogrande incluyen:

  • Gran escala: el conjunto de datos consta de 44.000 problemas, lo que lo hace significativamente más grande que el WSC original (que tenía solo 273 problemas).
  • Crowdsourced (Colaboración Colectiva): los problemas en Winogrande se generaron utilizando un procedimiento de colaboración colectiva que implica seleccionar e instruir cuidadosamente a los trabajadores para crear problemas que sean desafiantes y libres de sesgos no deseados.
  • Reducción de sesgos: el conjunto de datos se sometió a una reducción sistemática de sesgos utilizando el algoritmo AFLITE, que identifica y elimina los sesgos no deseados en los datos sin depender de anotaciones humanas.
  • Filtrado Adversarial: el algoritmo AFLITE utiliza un enfoque de filtrado adversarial para identificar sesgos en los datos. Primero entrena un clasificador en el conjunto de datos para predecir la respuesta correcta a cada problema, luego identifica las instancias que son fáciles de predecir para el clasificador y las elimina del conjunto de datos
  • Aprendizaje por transferencia: Winogrande proporciona capacidades de aprendizaje por transferencia, lo que permite ajustar los modelos entrenados en el conjunto de datos en otras tareas relacionadas, como WSC, DPR, COPA, KnowRef y Winogender.

CaracterísticaDescripción
Número de problemas44.000
Inspirado enWinograd Schema Challenge
Método de construcciónCrowdsourcing y algoritmo AFLITE
Técnica de reducción de sesgosAlgoritmo AFLITE
Resultados IA59.4 – 79.1% (en el momento de su creación, 2019)
Human Performance94.0%
Número de datos de entrenamiento2% – 100% del conjunto de datos
Artefactos de anotación detectadosAsociaciones de palabras y otros sesgos
Filtrado adversarialEmpleado para identificar y eliminar datos sesgados

GSM8K

El conjunto de datos GSM8K es una colección de 8.5K problemas de matemáticas de escuela primaria de alta calidad creados por escritores de problemas humanos. Fue diseñado para tener una alta diversidad lingüística mientras se basa en conceptos relativamente simples de matemáticas de escuela primaria. El conjunto de datos está segmentado en 7.5K problemas de entrenamiento y 1K problemas de prueba. Estos problemas utilizan entre 2 y 8 pasos para resolverse, y las soluciones implican principalmente realizar una secuencia de cálculos elementales utilizando operaciones aritméticas básicas (+ − ×÷) para llegar a la respuesta final. Un estudiante de secundaria brillante debería poder resolver cada problema.

Una de las características clave de GSM8K es su enfoque en las soluciones en lenguaje natural. A diferencia de otros conjuntos de datos que proporcionan soluciones en forma de ecuaciones o respuestas finales, GSM8K recopila soluciones en lenguaje natural. Este es el formato de datos más útil y general y se espera que arroje luz sobre las propiedades del monólogo interno de los modelos lingüísticos grandes. Se instruyó a los escritores de problemas para que explicaran su trabajo tanto como fuera posible, pero se les permitió escribir soluciones en sus propios estilos lingüísticos diversos.

GSM8K también incluye anotaciones de cálculo que fueron generadas por una combinación de lógica codificada a mano y un modelo de lenguaje afinado. Estas anotaciones no fueron proporcionadas por escritores humanos. Durante el entrenamiento, no se distingue entre los tokens anotados y el resto de la solución. Durante las pruebas, el muestreo del modelo se sobrescribe cuando existe una anotación bien formateada, específicamente reemplazando el token(s) directamente siguiente a “=” y dentro de <<. . . >>.

CaracterísticaDescripción
Tamaño8.5K problemas
División de entrenamiento/prueba7.5K/1K
Dificultad del problema2-8 pasos
Formato de soluciónLenguaje natural
Anotaciones de cálculoGeneradas por una combinación de lógica codificada a mano y un modelo de lenguaje finetunado
Público objetivoEstudiantes de secundaria brillantes
Diversidad lingüísticaAlta
Conceptos matemáticosConceptos relativamente simples de matemáticas de escuela primaria

El ranking open source de Hugging FAce: un recurso esencial para evaluar modelos de lenguaje

En resumen, el ranking de Hugging Face es un recurso público accesible al público general que clasifica el rendimiento de diversos modelos de lenguaje de código abierto en una variedad de tareas de comprensión y generación del lenguaje natural. La tabla está diseñada para ayudar a desarrolladores, investigadores y usuarios a comparar las capacidades de diferentes modelos e identificar el más adecuado para su caso de uso específico.

Este ranking incluye un conjunto diverso de modelos, que van desde modelos pequeños y ligeros hasta los modelos más grandes disponibles, cada uno con sus fortalezas y debilidades. El ranking evalúa estos modelos según varios parámetros proporcionando una visión integral de su rendimiento.

La importancia de la evaluación comparativa en el panorama de la IA

La evaluación comparativa es un aspecto crucial del desarrollo de la IA, ya que permite a investigadores y desarrolladores evaluar el rendimiento de sus modelos e identificar áreas de mejora. Al mantener este ranking, Hugging Face brinda a la comunidad de IA un recurso muy valioso para impulsar la innovación y avanzar en el estado del arte en el desarrollo de modelos de lenguaje.

Además, el ranking promueve la transparencia y la colaboración dentro de la comunidad de IA. Al compartir los resultados del rendimiento de diversos modelos, los investigadores y desarrolladores pueden aprender unos de otros, construir sobre los modelos existentes y contribuir al conocimiento colectivo en el campo. Este enfoque colaborativo es esencial para impulsar el progreso en la IA y garantizar que los beneficios de la tecnología se compartan ampliamente.

El futuro de la tabla de líderes LLM abierta

A medida que el campo de la IA continúa evolucionando, el ranking jugará previsiblemente un papel cada vez más importante. No hay que olvidar que para los proveedores de sistemas IA la posición en los rankings es un elemento tan importante que llegan a decidir hacer trampa con ellos (para prueba, aquí). Con el creciente número de modelos de código abierto disponibles, la tabla proporcionará un recurso valioso para que investigadores, desarrolladores y organizaciones evalúen y comparen estos modelos y tomen decisiones informadas sobre su uso.

Además, a medida que la tabla se expande para incluir más modelos y evaluarlos en un rango más amplio de tareas, proporciona una vista más completa y matizada del rendimiento de diferentes modelos. Dentro de poco, seguramente veremos el número de pruebas ampliarse o cambiar, ya que evolucionan al mismo ritmo que las IA que deben evaluar. Esto permitirá a desarrolladores, investigadores y usuarios comprender mejor las fortalezas y debilidades de cada modelo e identificar el más adecuado para su aplicación específica.

Enlaces externos

1 thought on “El ranking de modelos IA de código abierto de Hugging Face

Leave a Reply

Your email address will not be published. Required fields are marked *