Temas acerca de Inteligencia Artificial
Foto de Usuario
Luis.Rodriguez

Ranking Troomes
Mensajes: 5
Registrado: 02 Sep 2020, 20:21
Contactar:

Clustering de Población receptora de Bonos COVID-19 en 2020, MIDIS

Mensaje por Luis.Rodriguez » 15 Ene 2021, 02:30

Clustering de Población receptora de Bonos COVID-19 en 2020, MIDIS

1. Resumen del trabajo
El dataset empleado para su análisis de clúster es un conjunto de datos anonimizados sobre el subsidio monetario de 380 soles para los hogares en condición de pobreza o pobreza extrema, de acuerdo al Sistema de Focalización de Hogares, que se encuentren en los ámbitos urbanos con mayor vulnerabilidad sanitaria. Para realizar el análisis de clúster de las personas receptoras del Subsidio ofrecido por el estado debido al contexto del Covid19, se utilizará el algoritmo de Kmeans. Se mostrarán los resultados del procesamiento del dataset y el análisis de Clúster obtenidos con el Software Weka.

2. Descripción del Dataset
El dataset original, como se puede ver a continuación, consta de un total de 9 columnas: No. (índice), CO_HOGAR (Código de hogar), UBIGEO (código de lugar de nacimiento), DE_DEPARTAMENTO, DE_PROVINCIA, DE_DISTRITO, DE_GENERO, FLAG_PADRON_OLD (Indica si se encuentra en pobreza/pobreza extrema o no), FLAG_DISCAP_SEVERA (si la persona tiene o no discapacidad severa), FLAG_MAYEDAD (Si la persona es o no mayor de edad).

Imagen

Luego fueron eliminados los dos primeros atributos (CO_HOGAR Y UBIGEO Además de DE_DISTRITO y DE_PROVINCIA) pues no aportan al modelo que se busca realizar.

El dataset original se puede obtener del portal del Gobierno Peruano:
https://www.datosabiertos.gob.pe/dataset/bonos-covid-19-ministerio-de-desarrollo-inclusi%C3%B3n-social-midis

3. Descripción de los resultados obtenidos

No se recurrió a aplicar algún filtro como Principal Components o Smote para el balanceo puesto que el dataset empleado es bastante pequeño y manejable.
Imagen

Se aplicó el modelo de Kmeans para realizar el proceso de clustering, obteniendo los siguientes resultados:
Imagen

Se puede observar que se han definido solo dos clústers, en base a un total de 175 instancias. El clúster 0 se caracteriza por las personas de Amazonas sin pobreza extrema, sin discapacidad física y que no son mayores de edad, mientras que el segundo Clúster es bastante similar con la diferencia de que lo componen personas que sí son mayores de edad.

4. Conclusiones
En el caso del modelo Kmeans para el clustering propuesto es bastante difícil saber si es el mejor modelo para este caso en particular, puesto que solo se disponen de muy pocas instancias en el dataset trabajado. Sin embargo, se puede mencionar que es muy probable que estos clústers considerados se diferencien en el atributo FLAG_MAYEDAD el cual puede separar a un grupo de adultos mayores que fueron acreedores del subsidio de 380, así como de los que no son adultos mayores. El modelo además podría indicar que la mayoría de receptores del bono son personas NO adultos mayores (130 de 175) como lo muestra el clúster 0.

5. Ruta GitHub del dataset (original y procesado)

El dataset empleado está disponible en el repositorio de GitHub:
https://github.com/lblackrc/Fallecidos-COVID-19/tree/master/Clustering


Responder