CLUSTERIZACIÓN DE BONOS 2020 POR SECTOR REGIONAL

Juan Moreno · Mensaje por **Juan Moreno** » 15 Ene 2021, 21:28

CLUSTERIZACIÓN DE BONOS 2020 POR SECTOR REGIONAL

1. Resumen del trabajo
Los bonos en la población peruana han sido un apoyo a las familias afectadas por la pandemia provocada por el Covid-19. En este contexto es necesario establecer grupos o sectores por departamentos para encontrar qué grupos han sido beneficiados con los bonos y tomar medidas con respecto a los demás sectores. Se ha utilizado el conjunto de datos “Bonos Covid - 19” del ministerio de Desarrollo Inclusión Social (MIDIS). Los modelos que se trabajo en esta investigación es el modelo K-Means. Para esta investigación se utilizó Jupyter para la exploración y limpieza de los datos con el lenguaje python y weka para el entrenamiento de los modelos de clusterización.

2. Descripción del Dataset
Los datos anonimizados sobre el subsidio monetario de 380 soles para los hogares en condición de pobreza o pobreza extrema, de acuerdo al Sistema de Focalización de Hogares, que se encuentren en los ámbitos urbanos con mayor vulnerabilidad sanitaria, definidos por el Ministerio de Salud.
La dataset consta de filas y columnas. En la figura 1 podemos observar algunas filas del conjunto de datos y mediante la herramienta python visualizamos los tipos de datos, ver figura 2.

Fig. 1
Analizamos la data en jupyter, de lo cual observamos que la columna genero es un floaT por lo cual lo pasamos a un entero y luego a un string, esto para que el modelo entienda mejor los datos. Luego en la columna FLAG_PADRON_OLD, reemplazamos los 5 nulos por un valor diferente de los 2 que ya existian, lo mismo para la columna FLAG_DISCAP_SEVERA. Esta operaciones se podrán ver en el github

fig. 2
En la figura 3 podemos ver los datos procesados que se realizaron mediante el lenguaje python y estan desplegados en weka.

fig 3

fuente del conjunto de datos:
https://www.datosabiertos.gob.pe/datase ... cial-midis

3. Descripción de los resultados obtenidos
Una vez que hemos procesado la data utilizaremos la técnica Elbow method para hallar el número de cluster de la data con la cual estamos trabajando. En la figura 4 podemos observar el corte el cual nos indica el número de cluster, en este caso es 3, osea k=3.

Figura 4

Utilizamos el modelo de K Means y filteredClusterer para realizar el proceso de clusterización, pero solo mostraré los resultados de k means, ya que los resultados son similares:

fig 5
Los cluster obtenidos son los siguientes

4. Conclusiones

El cluster 0 que contiene 31 valores está centrado en el departamento de San Martin en la provincia de la rioja del distrito de ELIAS SOPLIN VARGAS y el genero que ha obtenido el bono en mayor medida es los hombres, ya que el resultado se acerca más al número 2

El cluster1 con 19 valores está centrado en el departamento de APURIMAC, provincia de ANDAHUAYLAS y ANDARAPA, además el genero que recibió más este bono son las mujeres.

El cluster2 con 124 valores está centrado en AMAZONAS, provincia de Bagua, distrito de IMAZA, el género que recibo este bono en mayor medida son los hombres

Podemos observar que con estas clusterizaciones que hay cierta relación de que genero puede recibir en mayor medida el bono, los que viven en departamentos del norte son hombres y los de departamentos del centro sur son mujeres. Además se puede predecir que lugares de los distritos van a necesitar recibir bonos, ya sea por su estado socioeconomico y otras caracteristicas adicionales.

5. Github

https://github.com/Juan-Moreno-17/CLUST ... -REGIONAL-