Fusión de Información

betsycz · Mensaje por **betsycz** » 14 Ago 2020, 21:40

FUSIÓN DE INFORMACIÓN

FUSIÓN DE DATOS EN REDES HETEROGÉNEAS^[1]
Una red es un grupo o sistema de personas o cosas interconectadas. Al hablar de una red heterogénea nos referimos a una red compuesta de múltiples tipos de objetos y enlaces con diferente infraestructura de red.
El siguiente mapa muestra de manera general lo que es una red heterogénea:

Como se puede apreciar en el mapa anterior, fusionar información es una tarea muy compleja en el cuál encontramos desafíos los cuales están en constante investigación para poder proponer soluciones de diversas maneras y con distintos recursos.
A continuación, se mostrará uno de los desafíos que afronta la fusión de información con su respectiva propuesta de solución.

REPRESENTATION LEARNING ON ATTRIBUTED HETEROGENEOUS NETWORKS(AHNs)^[2]

¿Qué son las AHNs?
Son aquellas redes que contienen nodos y enlaces de múltiples tipos, que contienen una estructura rica y una gran variedad de información semántica, que muestran heterogeneidad.La siguiente imagen representa cómo es una red heterogénea atribuida.

En la figura se puede observar que hay dos tipos de meta-paths entre a₂ y a₄, lo que indica información semántica diferente:

"a₂ --> p₄ --> a₄" indica una relación de colaboración entre a₂ y a₄;

" a₂ --> p₂ --> v₂ <-- p₃ <-- a₄" indica a₂ y a₄ puede tener intereses de investigación comunes,

Los métodos basados en meta-paths fusionan simultáneamente nodos y enlaces de múltiples tipos, pero ignora el nodo atributos. Los modelos recientes consideran los atributos de los nodos como nuevos tipos de nodos. Esto aumenta enormemente la complejidad de la topología de red heterogénea como. Por lo tanto, fusionar a la perfección el cabeceo multitipo es una ardua labor.

¿A qué desafíos responde?

1) Cómo fusionar:

Información de diversas fuentes.

Estructuras de red.

Información semántica.

Atributos de un nodo.

2) Cómo definir la incertidumbre de las incrustaciones de nodos que tienen diversos atributos.

(AHNG) Redes Heterogeneas con una distribución Gaussiana

Esta técnica funciona de manera inductiva para el análisis de redes, como la predicción de enlaces y la agrupación de nodos varios tipos ,los cuales poseen diversos atributos, a través de una red neuronal de dos capas y captura la incertidumbre al incorporar nodos con distribuciones gaussianas.

I.- CODIFICAR ATRIBUTO
Una red neuronal de dos capas, denominada codificador de atributos, procesa los atributos del nodo, la media de las salidas y la covarianza para cada nodo.
Lo anterior se puede representar mediante la última figura:

f_i representa el vector de atributo para cada nodo u_i

la primera capa genera una representación intermedia y_i para u_i

La capa 𝜇 y la capa Σ dan como resultado 𝝁_iy covarianza 𝚺_i respectivamente para el nodo u_i

Formalmente, la relación entre estas variables se puede representar mediante las siguientes ecuaciones:

⎧ 𝑦_𝑖 = 𝜎₁(𝐖₁ 𝐟^T_𝑖 + 𝐛₁)
⎪
⎨ 𝝁_𝑖 = 𝐖_𝜇 𝑦_𝑖 + 𝐛² ,
⎪
⎩ 𝚺_𝑖 = 𝜎₂(𝐖_Σ 𝑦_𝑖 + 𝐛₃)

Donde 𝜎₁ y 𝜎₂ representan funciones activas relu y elu, y 𝐖₁, 𝐖_𝜇, 𝐖_Σ representan la matriz de peso de la capa 1, 𝜇 y Σ respectivamente. Los parámetros bien ajustados del codificador de atributos permiten que AHNG sea un modelo de aprendizaje inductivo.

II.- META-PATH BASADO EN RECORRIDOS ALEATORIOS

Un caminante aleatorio basado en meta-paths atraviesa un AHN basado en meta-paths preasignados.
Por ejemplo, dado el meta-path:

P: A₁--^R₁--> ... --^R_𝑡-1--> A_𝑡 --^R_𝑡--> A_𝑡+1 ... --^R_l--> A_l+1

Tenemos: 𝑢^𝑡_𝑖 denota el nodo u_i que pertenece al tipo t. El caminante al azar va al nodo 𝑢^𝑡_𝑖en el paso j, y en el paso 𝑗 + 1 el nodo 𝑢_{𝑖 + 1}debería satisfacerse con (𝑢^𝑡_𝑖 , 𝑢_{𝑖 + 1}) ∈ 𝐸 y 𝜙 (𝑢_{𝑖 + 1}) = 𝑡 + 1.

En cuanto a los nodos que cumplen con las condiciones anteriores, uno de ellos se elige al azar.
Para cubrir todos los nodos de la red, los modelos de caminatas aleatorias basados en meta-paths deben asegurar tanto el número de caminatas como las caminatas las longitudes suficientes.

III.- APRENDIZ

Los modelos Skip-Gram maximiza la probabilidad de observar un nodo vecino (contexto) basado en una incrustación de nodo central. Estos modelos están basados en el supuesto de independencia condicional: dado una incrustación aprendida, observando que los nodos vecinos se vuelven independientes. Seguimos la pista y formulamos AHNG considerando la heterogeneidad de las redes y los atributos de los nodos.
Un enfoque para parametrizar el modelo skip-gram sigue el literatura en modelos de lenguaje de redes neuronales. Sin embargo, el producto escalar solo considera medios sin la incorporación de covarianzas. Suponemos que la "distancia" entre diferentes tipos de nodos es asimétrica.
Por lo tanto, es necesario utilizar la divergencia de Kullback-Leibler (KL), una medida naturalmente asimétrica, para incorporar la covarianza (denota incertidumbres de las representaciones de nodos).
De tal modo que la función final se denota de la siguiente manera:

donde 𝜎 (𝑥) = 1/(1 + 𝑒𝑥𝑝 (−𝑥)) y 𝑧^𝑡_𝑗 ∈ 𝑁_𝑡 (𝑢_𝑖).
Las muestras negativas denotan nodos que no pertenecen a N_t (u_i), y el tipo de muestra negativa 𝑧^𝑡_𝑘 debe ser igual como 𝑧^𝑡_𝑗.

RESULTADOS
Hay tres elementos necesarios para considerar durante el proceso de aprendizaje de AHNG:

Estructura de red,

Información semántica

Atributos de nodo.

Se realizó la prueba de predicción de enlaces en AMiner el cual muestra que AHNG es compatible con aquellos nodos que no participan en todo el proceso de incorporación.

CONCLUSIONES
Los artículos presentados nos muestran la gran complejidad de lo que es fusionar con datos que son extraídos de redes heterogéneas de distintas fuentes en la "VIDA REAL" donde que cada una de ellas les asigna diferentes atributos según sea necesarios dentro de cada fuente.
Asimismo pudimos conocer los desafíos que enfrentan y la propuesta de solución de uno de ellos, "data fusión" con AHNG, que usa redes neuronales y representan a los nodos como vectores, lo cual hace que matemáticamente sea más fácil de tratar, además de que logra capturar la incertidumbre utilizando distribuciones gaussianas.

Referencias

[1] Z. Yang et al, "Data fusion in heterogeneous Networks" (2019)

[2] M. Liu et al, "AHNG: : Representation learning on attributed heterogeneous network" (2019)