Machine Learning para la recomendación de eventos

hamedPortillo · Mensaje por **hamedPortillo** » 14 Ago 2020, 18:41

Artículo 1: Support Vector Machines For Collaborative Filtering

Problema:

El problema de los algoritmos de recomendación de Filtrado Colaborativo actuales es la escasez (sparsity). Dado que el conjunto de todos los posibles elementos disponibles en un sistema es muy grande, la mayoría de los usuarios pueden tener muy pocos elementos apreciados dentro de su historial y, por lo tanto, es difícil encontrar el vecino del usuario con alta similitud. Como resultado, la precisión de las recomendaciones puede ser deficiente.

Solución:

El clasificador estándar de SVM no es muy exitoso debido al problema de la escasez. Una solución simple al problema de la dispersión es la votación predeterminada que inserta la calificación de valores predeterminados para elementos no clasificados para aumentar la densidad del elemento dentro de la matriz del usuario.

Desarrollo de la solución

Abordan el problema de la escasez estimando repetidamente las calificaciones que faltan para los elementos que los usuarios no han clasificado. Primero inicializan estos valores faltantes con valores predeterminados para así proporcionar suficientes ejemplos para entrenar los modelos, y luego, crean clasificadores basados en estos ejemplos de entrenamiento. Después de que se obtienen los clasificadores, esos valores faltantes se vuelven a estimar. Este procedimiento se repite hasta que se cumple el criterio de terminación. El método heurístico se basa en el método suavizado de SVM (SSVM).
El SSVM basado en la heurística (SSVMBH) el cual mediante la estimación iterativa de los elementos faltantes en la matriz de elementos de usuario A. Para cada elemento amn ∈ A, tenemos:
Amn = Xmn, Si n pertenece a Im
Pmn, de otra forma

Inicialmente, se asignan aleatoriamente valores entre 0 y 1 a pmn . Luego, para cada usuario Um y el elemento n donde n ∉ I m, un clasificador lineal Fmn es entrenado por un algoritmo SVM según el vector de características:

Ak = (a1k, a2k, .... amk), 1 < k < N, k es diferente de n

Según Fmn, un nuevo Pmn es dado. Después de volver a calcular cada Pmn, se prueba el modelo con los datos de prueba, denotados por T. Sean |Tc| el total de etiquetas correctas calculadas con el modelo actual. El objetivo (tasa) precisa se define como:

Tc / Tn

Si la diferencia de precisión las tasas entre dos pasos consecutivos es menor que un predefinido valor ε, el algoritmo se detiene. De lo contrario, este procedimiento es repetido.

Los resultados concluyen que se genera y alcanza el actual estado del arte en sistemas de recomendación.

Artículo 2:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Descripción

A diferencia de la resumen por extracción el resumen abstracto puede generar palabras nuevas. Un buen resumen abstracto cubre la información principal en el input y es lingüísticamente fluido. En la publicación se lleva a cabo un análisis de los objetivos previos al entrenamiento del modelo diseñados para el resumen abstracto del texto los cuales no han sido explorados correctamente en el SOTA.

Además hay una falta de evaluación sistemática en diversos dominios. En el trabajo leído, se propone el pre-entrenamiento de grandes modelos de codificador-decodificador basados en transformadores en corpus de textos masivos con un nuevo objetivo auto supervisado.

Estudiarán los objetivos previos a la capacitación específicamente para el resumen de texto abstracto y evaluarán en 12 conjuntos de datos posteriores que abarcan noticias, ciencia, historias cortas, instrucciones, correos electrónicos, patentes y proyectos de ley legislativos. El entrenamiento previo con oraciones de brecha extraídas para modelos de secuencia a secuencia, o PEGASUS.

Motivación del autor

En los últimos años, ha aumentado el interés en recopilar nuevos conjuntos de datos de resumen que tengan resúmenes más abstractos documentos más largos, utilicen múltiples documentos, y provengan de diversos dominios, sin embargo, ha habido poco trabajo en la evaluación sistemática de modelos en estos amplios entornos. Se considera que una sola base de datos puede resolver muchos problemas “One-size-fits-All”, pero a lo largo del documento se abrirá un debate sobre esta afirmación ya que compararán dos diferentes base de datos que traen consigo diferentes resultados en base a la naturaleza de la data pre-entrenada, entrenada y predicha. Esto último encara directamente al enfoque GPT-3 cuyos resultados fueron muy buenos en comparación al SOTA en varios aspectos del procesamiento de lenguaje natural pero no en comprensión lectura.

Descripción del aporte del autor

Proponen un nuevo objetivo de pre-entrenamiento auto supervisado para el resumen abstracto, la generación de oraciones breves (GSG) y las estrategias para seleccionar esas oraciones.

Evalúan el objetivo de pre-entrenamiento propuesto en una amplia gama de tareas de resúmenes posteriores, con cuidadosas eliminaciones para elegir la mejor configuración del
modelo, que usamos para entrenar un modelo PEGASUS de parámetro 568M que supera o está a la par con el estado del arte en los 12 conjuntos de datos posteriores considerados.
Mostraron cómo se puede lograr un buen rendimiento del resumen abstracto en dominios amplios con muy poca supervisión ajustando el modelo PEGASUS y superando resultados
de vanguardia anteriores en muchas tareas con tan solo 1000 ejemplos. Realizaron estudios de evaluación en humanos para validar nuestro diseño experimental y demostrar el rendimiento del resumen en XSum, CNN / DailyMail y Reddit TIFU. Proceso para obtener el aporte (solución al problema) que considera el autor Inspirados por el éxito reciente en el enmascaramiento de palabras y tramos contiguos seleccionaron y enmascararon oraciones completas de documentos, y concatenaron oraciones vacías en un seudo-resumen. La posición correspondiente de cada oración vacía seleccionada se reemplaza por un token de máscara [MASK1] para informar al modelo. El ratio de oraciones vacías, o GSR, se refiere al número de oraciones vacías seleccionadas y el número total de oraciones en el documento, que es similar a la tasa de máscara en otros trabajos.

Los Objetivos de pre-entrenamiento

1. Gap Sentences Generation (GSG) – Generación de oraciones vacías

Se utilizarán tres técnicas diferentes para optimizar la generación de oraciones vacías:

 Random: Selección uniformemente de m oraciones al azar.
 Lead: Seleccione las primeras m oraciones
 Principal: Seleccione las m oraciones mejor puntuadas según la importancia.

2. Masked Language Model (MLM) – Modelo de lenguaje enmascarado

Descubrieron que el MLM no mejora las tareas posteriores en una gran cantidad de pasos previos al entrenamiento , y eligieron no incluir MLM en el modelo final PEGASUS LARGE.
Como podemos observar en la figura 3 la arquitectura base de PEGASUS es un codificador-decodificador Transformador estándar. Tanto GSG como MLM se aplican simultáneamente a este ejemplo como objetivos previos al entrenamiento. Originalmente hay tres oraciones. Una oración está enmascarada con [MASK1] y se usa como texto de generación obejtivo (GSG). Las otras dos oraciones permanecen en la entrada, pero algunos tokens son enmascarados al azar por [MASK2] (MLM).

Características del modelo PEGASUS Large

El documentonos explica como se llegarón a obtener los mejores parámetros para su modelo final a partir de un prototipo llamado PEGASUS base. Llegando a la conclusión de que debería tener los siguientes parámetros L = 16, H = 1024, F = 4096, A = 16, donde L indica el número de capas para codificador y decodificador (es decir, bloques Transformador), H para el tamaño oculto, F para el tamaño de capa de avance y A por el número de cabezas de auto atención. Preentrenaron PEGASUSLARGE con un tamaño de batch de 8192. Este modelo final tiene 568M de parámetros.

Los resultados sugieren que elegir las oraciones principales (Ind-Org) funciona mejor para las tareas de resumen posteriores, y elegimos Ind-Orig para el PEGASUS Large por ello.
El mejor rendimiento siempre tuvo un GSR inferior al 50%. Al escalar a PEGASUS Large eligieron un GSR efectivo del 30%. Al observar los gráficos observamos que el modelo entrenado con MLM solo tuvo un rendimiento malo por lo tanto, eligieron no incluir MLM en PEGASUS Large.

Resultados que obtienen

Como métricas a considerar podemos mencionar ROUGE scores.

Se ha trabajado utilizando el conjunto de datos CNN / DailyMail. El SOTA mostró que un gran modelo de lenguaje Transformer pre-entrenado en texto web podría generar resúmenes si se le solicita con "TL; DR", logrando un ROUGE-2 de 8.27 en CNN / DailyMail. El SOTA pre-entrenó un modelo de lenguaje Transformer en Wikipedia, y lo afinaron usando 3000 ejemplos, logrando 13.1 ROUGE-2.

Observaciones y/o críticas

La mejora de un modelo Transformer sin pre-entrenamiento (Transformer Base) a PEGASUS Large fue más significativa en conjuntos de datos más pequeños. Por ejemplo, las puntuaciones ROUGE2- F1 casi se triplicaron en la base de datos AESLC y se quintuplicaron en la base de datos Reddit TIFU. Los grandes saltos en el rendimiento sugieren que los conjuntos de datos de resumen de texto pequeño se benefician más del entrenamiento previa. Lo cual se relaciona bien con mi proyecto de tesis ya que lo que se busca resumir son porciones pequeñas de varios textos. Por otro lado el enfoque es opuesto al expuesto la semana pasada en el modelo GPT3, lo cual enriquece los diferentes puntos de vista del lector.

Fuentes:

Artículo 1: https://sci2s.ugr.es/keel/pdf/specific/ ... ong_06.pdf
Artículo 2: https://arxiv.org/abs/1912.08777