Modelos de Machine Learning Aplicado al Procesamiento de Lenguaje Natural

hamedPortillo · Mensaje por **hamedPortillo** » 14 Ago 2020, 18:22

ARTÍCULO 1 : Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference

Descripción

Un sistema de aprendizaje automático puede obtener una buena puntuación en un conjunto de pruebas dadas al confiar en heurísticas que son efectivas para los tipos de ejemplos frecuentes pero que se descomponen en casos más difíciles. Estudiamos este tema dentro de la inferencia del lenguaje natural (NLI), la tarea de determinar si una oración implica otra. A lo largo de la investigación pondremos a pruebas un nuevo testeo creado en este documento llamado HANS el cual intenta mejorar los estándares de medición en el campo de la inferencia del lenguaje natural.

Motivación del autor:

Actualmente existe una explosión en la cantidad de datos de texto de una variedad de fuentes a lo largo de internet. Este volumen de texto es una fuente invaluable de información y conocimiento que necesita ser resumida efectivamente para ser útil. Este problema se ha documentado en todos los dominios en inteligencia artificial. En visión artificial, por ejemplo, redes neuronales entrenadas para reconocer objetos son engañados por la heurística contextual: una red que es capaz de reconocer a los monos en un típico contexto con alta precisión sin embargo etiquetar a un mono con una guitarra como humano se le es difícil, ya que en el set de entrenamiento, las guitarras tienden a coexistir con los humanos pero no con los monos. Este mismo problema que se tienen en la visión artificial tiene su símil en el campo del lenguaje natural conllevando a conclusiones incorrectas bajo las mediciones actuales de precisión.

Desarrollo de la investigación:

Para determinar si los modelos tienen estas heurísticas, introdujeron un conjunto de evaluaciones llamado HANS (Análisis heurístico para sistemas NLI), que contiene muchos ejemplos donde fallan las heurísticas. La superposición léxica, la sub secuencia y el constituyente.

Como segundo aporte utilizaron un conjunto de datos para iluminar deficiencias interpretables en el estado del arte modelos entrenados en MNLI, dichas deficiencias pueden surgir de sesgos inductivos del modelo, de señal insuficiente proporcionado por conjuntos de datos de entrenamiento, o ambos.

En tercer lugar, demostraron que estas deficiencias pueden hacerse menos graves aumentando el conjunto de entrenamiento de un modelo con el tipo de ejemplos presentes en HANS.

Descripción del aporte del autor:

El set de entrenamiento MNLI contiene muchos más ejemplos que apoyan la heurística que ejemplos que los contradicen, MNLI contiene datos de múltiples géneros, entonces conjeturamos que la escasez de contradicciones ejemplos no es solo una propiedad de un género, sino más bien una propiedad general de datos NLI generados en el enfoque de crowdsourcing utilizado para MNLI.

La segunda razón por la que podríamos esperar que los modelos actuales de Inferencia de Lenguaje Natural para adoptar estas heurísticas es que sus representaciones pueden hacerlos susceptibles a estas heurísticas.

• La superposición léxica descuida la heurística el orden de las palabras en la oración y considera solo su identidad, por lo que es probable que sea adoptado por modelos NLI de “bag of words” esquematizados por palabras como unidad del modelo.

• La subsecuencia heurística considera fragmentos de palabras linealmente adyacentes, por lo que uno podría esperar que sea adoptado por algoritmos de redes neuronales estándar, que procesan oraciones en orden lineal.

• El constituyente último caso heurístico debería ser adoptado fácilmente por los componentes del análisis en árbol, por lo que uno podría esperar verlo adoptado por modelos NLI basados en árboles

Las estrategias que usaron para poder tratar la información, cada una usando una metodología distinta y enfocada en cada una de las heurísticas de la investigación, son las siguientes:

• DA: El modelo de atención descomponible alinea las palabras en premisa e hipótesis y hace predicciones basadas en la agregación de esta alineación. No utiliza información de orden de palabras y puede por lo tanto, ser visto como un modelo de “bag of words”.

• ESIM: El modelo de inferencia secuencial mejorada utiliza una versión modificada LSTM bidireccional para codificar oraciones. Usamos la variante con un codificador secuencial, en lugar de El modelo de inferencia híbrido basado en árboles (HIM).

• SPINN: Este modelo está basado en árboles: codifica oraciones combinando frases basadas en un análisis sintáctico. En la investigación se usó la variante SPINN-PI-NT, que toma un análisis árbol como entrada.

• MNLI, será utilizado para los análisis proporcionados; para HANS, se usarán plantillas de análisis que se crearon en base a análisis de Stanford PCFG Parser, el mismo analizador utilizado para analizar MNLI.

• BERT: las representaciones de codificador bidireccional del modelo Transformers-BERT es un modelo que utiliza la importancia, en lugar de recurrencia, para procesar oraciones.

Entrenaron a todos los modelos en MNLI. MNLI utiliza tres etiquetas (vinculación, contradicción y neutral). Eligieron anotar HANS con dos etiquetas solo (vinculación y no vinculación) porque la distinción entre contradicción y neutral a menudo no estaba claro para nuestros casos

Métricas que el autor usa y resultado que obtiene.

El éxito de BERT en MNLI puede deberse a una mayor tendencia a incorporar información de orden de palabras en comparación con otros modelos, aunque se descubrió que HANS es más difícil en general que MNLI, su la precisión fue similar si la respuesta correcta fue vinculación (precisión del 75%) o no vinculación (77% de precisión). El contraste entre el equilibrio en los errores humanos a través de las etiquetas y el marcado desequilibrio en los errores de los modelos es poco probable que los errores humanos sean impulsados por heurística dirigida en el trabajo actual.

El fracaso de los modelos que probamos plantea la pregunta de lo que se necesitaría para hacer bien en HANS. Una posibilidad es que un tipo diferente de modelo funcionaría mejor, por ejemplo, un modelo basado en reglas codificadas a mano podría manejar bien a HANS.

Sin embargo, dado que la mayoría de los modelos que probamos son en teoría capaz de manejar los ejemplos de HANS pero no pueden hacerlo cuando se entrenó en MNLI, es probable que ese rendimiento también podría mejorarse mediante entrenamiento con las mismas arquitecturas en un conjunto de datos en el que estas heurísticas son menos exitosas.

Para probar esa hipótesis, se volvió a entrenar cada modelo en el conjunto de entrenamiento MNLI aumentado con un conjunto de datos estructurado exactamente como HANS (es decir, usando la misma treintena de subcasos) pero que no contienen ejemplos específicos que aparecieron en HANS. Las adiciones comprendieron 30,000 ejemplos, aproximadamente el 8% del tamaño del conjunto de entrenamiento original de MNLI (392,702 ejemplos)

Los positivos resultados del experimento de aumento similar a HANS son compatibles con la posibilidad de que el modelos simplemente memoriza las plantillas que hicieron sobre la treinta de subcasos de HANS. Para abordar esto, volvieron a entrenar los modelos en MNLI aumentados con subconjuntos de los casos HANS luego probaron los modelos en los casos retenidos.

Observaciones y críticas:

Para evaluar si los modelos NLI se comportan de manera consistente con la heurística, se introdujo un conjunto de datos HANS, sobre los cuales los modelos utilizan estas heurísticas y están garantizados para fallar. Encontraron que cuatro existentes modelos de NLI funcionan muy mal en HANS, sugiriendo que sus altas precisiones en las pruebas NLI pueden deberse a la explotación de inválidas heurísticas en lugar de una comprensión más profunda del lenguaje.

Sin embargo, estos modelos tuvieron un rendimiento significativo mejor tanto en HANS como en un separado conjunto de datos dependiente de la estructura cuando su entrenamiento los datos se aumentaron con ejemplos similares a HANS.

En general, los resultados indican que, a pesar de las impresionantes precisiones de los modelos más modernos en evaluaciones estándar, todavía hay mucho el progreso a realizar y ese objetivo, desafiante los conjuntos de datos, como HANS, son importantes para determinar si los modelos están aprendiendo lo que son destinado a aprender.

ARTÍCULO 2: MLSUM The Multilingual Summarization Corpus

Motivación del autor:

El autor reconoce que no existen esfuerzos en el procesamiento de lenguaje natural en idiomas que no sean el inglés porque efectivamente no existen grandes bases de datos en otros idiomas, menciona que después del inglés la mayor base de datos, también llamados corpus, es el Chinese LCSTS. El autor se propone apoyar en el desarrollo de bases de datos multilingüe. El autor menciona que la falta de datos multilingües se debe al paradigma de facto del procesamiento de lenguaje natural, el cual consiste en la aplicación de la transferencia de técnicas de aprendizaje habilitadas por la disponibilidad de modelos pre entrenados en idiomas multilingües. Bajo este paradigma, para tareas de codificador / decodificador, un modelo de lenguaje puede primero ser pre-entrenado en un gran corpus de textos en múltiples idiomas. Entonces el modelo se ajusta (tunea) en uno o más idiomas dinámicos para los cuales están disponibles los datos específicos de la tarea (data de entrenamiento). En términos de inferencia, todavía se puede aplicar a los diferentes idiomas vistos durante el pre-entrenamiento. Debido al dominio del inglés para corpus a gran escala, el inglés se estableció naturalmente como un eje para otros idiomas. La disponibilidad de modelos pre-entrenados multilingües, como BERT multilingüe (MBERT), permite construir modelos para idiomas de destino diferente de los datos de entrenamiento. Sin embargo, estudios anteriores informaron de una brecha de rendimiento significativa entre el inglés y el idioma de destino, por ejemplo para la clasificación (Classification) y Pregunta Responder tareas (Question Answering). Un similar enfoque ha sido propuesto recientemente para el resumen de textos obteniendo, nuevamente, un menor rendimiento que para el inglés.

Descripción del aporte del autor

El objetivo es llenar el vacío de datos para el área de resumen de textos proponiendo una base de datos de escala mayor Resumen Multilingüe (MLSUM) está construido a partir de medios de noticias en línea, y contiene más de 1,5 millones de pares de resumen de artículos en 5 idiomas: francés, alemán, español, ruso, y turco, que complementan un ya conocido conjunto de datos de resumen establecido en inglés. Las contribuciones de este documento pueden resumirse como sigue:

1. Lanzar el primer conjunto de datos multilingüe a gran escala de resúmenes de textos.

2. Proporcionar líneas de base sólidas para los modelos de generación de texto abstracto multilingües.

3. Reportar un análisis comparativo entre idiomas de los resultados obtenidos por diferentes enfoques.

Proceso para obtener el aporte (solución al problema) que considera el autor

El autor toma como guía el conjunto de datos CNN / Daily Mail (CNN / DM) el cual es el más utilizado a gran escala para el resumen de textos. Siguiendo la misma metodología, consideraron artículos de noticias como texto entrada, y sus destacados / descripción emparejados como el resumen. Para cada idioma, seleccionaron un periódico online que cumplía los siguientes requisitos:

1. Ser un periódico generalista: asegurar que un
2. Tener una gran cantidad de artículos en su archivo público.
3. Proporcionar destacados/ resúmenes escritos por personas de los artículos los cuales se pueden extraer del código HTML de la página web.

Concluyeron seleccionando artículos archivados del 2010 al 2019:

• Le Monde (francés)
• Suddeutsche Zeitung (alemán)
• El País6 (español)
• Moskovskij Komsomolets (ruso)
• Internet Haber (turco)

Todos los artículos de menos de 50 palabras o resúmenes de menos de 10 palabras se descartan. Así evitaron artículos que tenían data en imágenes o videos. Cada artículo fue archivado en el Wayback Machine, permitiendo a los interesados reconstruir la data.

La data reclutada fue utilizada de la siguiente manera, se usó la data del 2010 al 2018, para el entrenamiento; la data del 2019 (~10% del total) para la validación (hasta Mayo del 2019) y para el test se utilizó la data del resto del año (Mayo a Diciembre 2019).

En el idioma ruso se observó hasta 10 veces menos cantidad de datos. Es importante aclarar que el ratio de comprensión es la división entre los tamaños del artículo y su resumen; novedad es el porcentaje de palabras nuevas en el resumen que no aparecen en el artículo.

La data creada en MLSUM fue puesta a prueba con modelos supervisados y no supervisados de extracción y abstracción. Cada modelo fue entrenado con un idioma a la vez.

La mayoría de los modelos de resumen abstracto son modelos de secuencia neural a secuencia (neural sequence to sequence models) compuestos por un codificador que codifica el texto de entrada y un decodificador que genera el resumen. Los modelos de resumen de textos utilizados fueron:

• Pointer-Generator (Puntero-generador): Propone el uso del mecanismo de copia (Vinyals et al., 2015) en la parte superior de un modelo secuencia a secuencia LSTM. Este mecanismo permite eficientemente copiar tokens fuera del vocabulario. Se utilizó el implemento Open NMT disponible públicamente.

• M-BERT (Arquitecturas de transformador Codificador-decodificador): son una opción muy popular para la generación de texto. Los esfuerzos de investigación recientes han adaptado grandes modelos pre-entrenados basados en la auto atención para la generación de texto.

En el artículo, solo se muestran los resultados obtenidos en experimentos preliminares con un simple BERT multilingüe (MBERT), sin modificación, obteniendo una performance comparable con el resumen de textos.

Métricas que el autor usa y resultado que obtiene:

Los resultados siguientes reportan el ROUGE – L y no se notan grandes cambios entre un idioma y otro.

El nivel de abstracción de los modelos se puede identificar a través de la variable novedad “novelty”, y como podemos observar modelos pre entrenados de lenguaje tales como M-BERT son considerablemente más abstractivos y por una gran diferencia ya que ellos están expuestos a otros textos durante el pre entrenamiento.

Dados estos resultados se puede inferir que los beneficios del pre entrenamiento que cuanto más se acerca el rendimiento de un modelo no supervisado a su límite máximo, habrá menos incremento en la performance proveniente del pre entrenamiento. Mirando la correlación que emerge de la trama, la hipótesis parece ser cierta para todos los idiomas, con la excepción del inglés. Esta excepción probablemente se deba a sesgos.

Finalmente, en los resultados se observa que M-BERT siempre supera al generador de punteros (Pointer Generator). Se plantea la hipótesis de que la auto atención juega un papel importante para el alemán pero tiene un impacto limitado para el francés esto podría encontrar una explicación en la morfología de los dos idiomas: en un análisis estadístico, considerando el alemán muy sensible al orden de las palabras, debido a su riqueza morfológica, a diferencia del francés. Entre otras razones, la flexibilidad de su ordenamiento sintáctico es mencionada. Esto corrobora la hipótesis de que la auto atención podría ayudar a preservar la información para idiomas con mayor grado de orden de las palabras libertad.

Observaciones y/o críticas:

• En base al paradigma mencionado en la introducción los enfoques actuales están obligados a usar datos de entrenamiento en un lenguaje de pre entrenamiento para el cual exista una gran cantidad de datos, generalmente en inglés. Esto evita investigar, por ejemplo, si un determinado el modelo es más apropiado para un idioma específico como para cualquier otro. La respuesta a dicha pregunta planteada representaría una mejora en el rendimiento de los modelos de procesamiento de lenguaje natural para idiomas con bajos recursos en términos de datos.

• La predisposición de compartir el código de scrapeo de data y la de compartir la información ya scrapeada demuestra una solidaridad del autor para investigadores del procesamiento de lenguaje natural en español.

• Es valioso como distribuyeron la data de entre entrenamiento, testeo y validación en torno a los años lo cual es un enfoque que no conocía, pero bastante realista.

Referencias

Artículo 1:

Autor(es): R. Thomas McCoy, Ellie Pavlick & Tal Linzen1
Título del paper: Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
Conferencia/Origen: Department of Cognitive Science, Johns Hopkins University, Department of Computer Science, Brown University
Año: 2019

Artículo 2:

Autor(es): Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
Título del paper: MLSUM The Multilingual Summarization Corpus
Conferencia/Origen: Sorbonne Universite, Le Centre national de la recherche scientifique
Año: 2020