Topics about Data Sciences and BI
Foto de Usuario
betsycz

Ranking Troomes
Mensajes: 13
Registrado: 26 Dic 2018, 18:06

Fusión de Información

Mensaje por betsycz » 14 Ago 2020, 21:40

FUSIÓN DE INFORMACIÓN



FUSIÓN DE DATOS EN REDES HETEROGÉNEAS [1]
Una red es un grupo o sistema de personas o cosas interconectadas. Al hablar de una red heterogénea nos referimos a una red compuesta de múltiples tipos de objetos y enlaces con diferente infraestructura de red.
El siguiente mapa muestra de manera general lo que es una red heterogénea:

Information Fusion.png
Como se puede apreciar en el mapa anterior, fusionar información es una tarea muy compleja en el cuál encontramos desafíos los cuales están en constante investigación para poder proponer soluciones de diversas maneras y con distintos recursos.
A continuación, se mostrará uno de los desafíos que afronta la fusión de información con su respectiva propuesta de solución.

REPRESENTATION LEARNING ON ATTRIBUTED HETEROGENEOUS NETWORKS(AHNs)[2]

¿Qué son las AHNs?
Son aquellas redes que contienen nodos y enlaces de múltiples tipos, que contienen una estructura rica y una gran variedad de información semántica, que muestran heterogeneidad.La siguiente imagen representa cómo es una red heterogénea atribuida.
AHN.PNG

En la figura se puede observar que hay dos tipos de meta-paths entre a2 y a4, lo que indica información semántica diferente:
  • "a2 --> p4 --> a4 " indica una relación de colaboración entre a2 y a4;
  • " a2 --> p2 --> v2 <-- p3 <-- a4" indica a2 y a4 puede tener intereses de investigación comunes,
Los métodos basados ​​en meta-paths fusionan simultáneamente nodos y enlaces de múltiples tipos, pero ignora el nodo atributos. Los modelos recientes consideran los atributos de los nodos como nuevos tipos de nodos. Esto aumenta enormemente la complejidad de la topología de red heterogénea como. Por lo tanto, fusionar a la perfección el cabeceo multitipo es una ardua labor.


¿A qué desafíos responde?

1) Cómo fusionar:
  • Información de diversas fuentes.
  • Estructuras de red.
  • Información semántica.
  • Atributos de un nodo.
2) Cómo definir la incertidumbre de las incrustaciones de nodos que tienen diversos atributos.



(AHNG) Redes Heterogeneas con una distribución Gaussiana

Esta técnica funciona de manera inductiva para el análisis de redes, como la predicción de enlaces y la agrupación de nodos varios tipos ,los cuales poseen diversos atributos, a través de una red neuronal de dos capas y captura la incertidumbre al incorporar nodos con distribuciones gaussianas.

AHNG.PNG

I.- CODIFICAR ATRIBUTO
Una red neuronal de dos capas, denominada codificador de atributos, procesa los atributos del nodo, la media de las salidas y la covarianza para cada nodo.
Lo anterior se puede representar mediante la última figura:
  • fi representa el vector de atributo para cada nodo ui
  • la primera capa genera una representación intermedia yi para ui
  • La capa 𝜇 y la capa Σ dan como resultado 𝝁i y covarianza 𝚺i respectivamente para el nodo ui
Formalmente, la relación entre estas variables se puede representar mediante las siguientes ecuaciones:

⎧ 𝑦𝑖 = 𝜎1(𝐖1 𝐟T𝑖 + 𝐛1)

⎨ 𝝁𝑖 = 𝐖𝜇 𝑦𝑖 + 𝐛2 ,

⎩ 𝚺𝑖 = 𝜎2(𝐖Σ 𝑦𝑖 + 𝐛3)

Donde 𝜎1 y ​​𝜎2 representan funciones activas relu y elu, y 𝐖1, 𝐖𝜇, 𝐖Σ representan la matriz de peso de la capa 1, 𝜇 y Σ respectivamente. Los parámetros bien ajustados del codificador de atributos permiten que AHNG sea un modelo de aprendizaje inductivo.



II.- META-PATH BASADO EN RECORRIDOS ALEATORIOS

Un caminante aleatorio basado en meta-paths atraviesa un AHN basado en meta-paths preasignados.
Por ejemplo, dado el meta-path:

P: A1 --R1--> ... --R𝑡-1--> A𝑡 --R𝑡--> A𝑡+1 ... --Rl--> Al+1

Tenemos: 𝑢𝑡𝑖 denota el nodo ui que pertenece al tipo t. El caminante al azar va al nodo 𝑢𝑡𝑖en el paso j, y en el paso 𝑗 + 1 el nodo 𝑢𝑖 + 1 debería satisfacerse con (𝑢𝑡𝑖 , 𝑢𝑖 + 1) ∈ 𝐸 y 𝜙 (𝑢𝑖 + 1) = 𝑡 + 1.

En cuanto a los nodos que cumplen con las condiciones anteriores, uno de ellos se elige al azar.
Para cubrir todos los nodos de la red, los modelos de caminatas aleatorias basados ​​en meta-paths deben asegurar tanto el número de caminatas como las caminatas las longitudes suficientes.

III.- APRENDIZ

Los modelos Skip-Gram maximiza la probabilidad de observar un nodo vecino (contexto) basado en una incrustación de nodo central. Estos modelos están basados ​​en el supuesto de independencia condicional: dado una incrustación aprendida, observando que los nodos vecinos se vuelven independientes. Seguimos la pista y formulamos AHNG considerando la heterogeneidad de las redes y los atributos de los nodos.
Un enfoque para parametrizar el modelo skip-gram sigue el literatura en modelos de lenguaje de redes neuronales. Sin embargo, el producto escalar solo considera medios sin la incorporación de covarianzas. Suponemos que la "distancia" entre diferentes tipos de nodos es asimétrica.
Por lo tanto, es necesario utilizar la divergencia de Kullback-Leibler (KL), una medida naturalmente asimétrica, para incorporar la covarianza (denota incertidumbres de las representaciones de nodos).
De tal modo que la función final se denota de la siguiente manera:
Learning function.PNG
donde 𝜎 (𝑥) = 1/(1 + 𝑒𝑥𝑝 (−𝑥)) y 𝑧𝑡𝑗 ∈ 𝑁𝑡 (𝑢𝑖).
Las muestras negativas denotan nodos que no pertenecen a Nt (ui), y el tipo de muestra negativa 𝑧𝑡𝑘 debe ser igual como 𝑧𝑡𝑗.

RESULTADOS
Hay tres elementos necesarios para considerar durante el proceso de aprendizaje de AHNG:
  • Estructura de red,
  • Información semántica
  • Atributos de nodo.
Se realizó la prueba de predicción de enlaces en AMiner el cual muestra que AHNG es compatible con aquellos nodos que no participan en todo el proceso de incorporación.
resultados.PNG

CONCLUSIONES
Los artículos presentados nos muestran la gran complejidad de lo que es fusionar con datos que son extraídos de redes heterogéneas de distintas fuentes en la "VIDA REAL" donde que cada una de ellas les asigna diferentes atributos según sea necesarios dentro de cada fuente.
Asimismo pudimos conocer los desafíos que enfrentan y la propuesta de solución de uno de ellos, "data fusión" con AHNG, que usa redes neuronales y representan a los nodos como vectores, lo cual hace que matemáticamente sea más fácil de tratar, además de que logra capturar la incertidumbre utilizando distribuciones gaussianas.

Referencias
Última edición por betsycz el 14 Ago 2020, 22:12, editado 2 veces en total.


Responder