Temas acerca de Inteligencia Artificial
Foto de Usuario
renzo.guerrero

Ranking Troomes
Mensajes: 6
Registrado: 15 Ene 2020, 22:08
Contactar:

Clustering de casos positivos de COVID19

Mensaje por renzo.guerrero » 15 Ene 2021, 18:36

1.Resumen

El trabajo tiene como objetivo agrupar personas que han dado positivo en la prueba de COVID-19 bajo ciertas características similares, haciendo uso del dataset proporcionado por el Ministerio de Salud , el cual esta formado por variables de tipo geográfico , demográfico y tipo de prueba aplicada , para lo cual se usó técnicas de preprocesamiento de datos y Elbow Method para determinar el número de cluster que servirá de entrada para el algoritmo de K-means el cual nos arrojará a que cluster está asociada cada persona infectada.

2.Descripción del dataset

El dataset original está compuesto por un total de 1035184 registros y 9 columnas, entre las cuales se encuentran: Fecha de corte,UUIID(identificador único ),Departamento, Provincia, Distrito, Tipo de prueba, Sexo, Edad y Fecha de resultado de la prueba.

2.1.Preprocesamiento

A) Eliminar variables que no son relevantes
Se eliminó las variables de formato de fecha , así como identificador dado que no nos daban mayor información al momento de realizar el modelo

B) Variables numéricas
1. Se encontró un total de 58 registros que contaban con un valor nulo en el campo Edad, por lo cual se procedió a eliminarlos.

2. Además para el campo edad se realizó un diagrama de cajas a modo de identificar los valores atípicos, para su posterior eliminación.

C) Variables categóricas

1. En el caso de la variable Sexo y Tipo de prueba ambas al ser de tipo categórica no ordinal, se realizó una conversión a variables dummy, para que puedan ser procesadas por el algoritmo kmeans.

2. Para las variables de tipo geográfico como Departamento, Provincia y Distrito se usó el ratio de aparición de cada uno estos , reemplazandolos en el dataset los valores categóricos de dichas variables, esto se realizó ya que el número de departamentos, provincias y distritos es muy grande ,lo cual al haberse aplicado One Hot encoding la dimensión del dataset original hubiese crecido demasiado, lo cual dificultaría el procesamiento.

• Dataset original: https://www.datosabiertos.gob.pe/datase ... alud-minsa

3.Descripción de los resultados obtenidos

3.1.Elbow Method

Se normalizó el dataset limpio y se usó Elbow Method , tal como se muestra en la siguiente figura:
Num_cluster.png
Se seleccionó un total de 7 clusters, por lo cual definimos K = 7.

3.2.Algoritmo de K-means

Normalizamos los datos y fijamos K = 7, el desarrollo se puede ver a más detalle en el notebook adjunto en la ruta de GitHub.
Se encontró el siguiente número de instancias por cluster:
Instancias.png
4.Conclusiones

1.En el cluster 4 se puede notar que el departamento con mayor número de ocurrencias en dicho cluster es Lima( ver resultados en el notebook de la ruta en GitHub) , además que los sectores de las zonas 1,2,3 ,y 4 de Lima son las que mayor aporte dan a este cluster, donde se encuentran distritos como: San Juan de Lurigancho,San Martin de Porres,Los Olivos y Comas principalmente.

2.En el cluster 2 se encontró que de los 10 departamentos que más aportan a dicho cluster en términos de cantidad; estos se encuentran
actualmente categorizados por el gobierno como zonas de alto contagio o muy alto contagio, por lo que se puede mejorar aún la segmentación en este cluster a manera de identificar a que categoría pertenecen los departamentos.

3. El uso de modelos que realicen clustering pueden ser de ayuda al momento de implementar acciones restrictivas a ciertas zonas del país ,tal es el caso de las restricciones que se están implementando el Perú actualmente para ciertas regiones del país, donde se ha segmentado en 3 grandes grupos: MODERADO,ALTO y MUY ALTO, para mitigar el contagio del COVID-19.

5.Ruta de Github

Se adjunta el código en Python y el dataset limipio en el siguiente repositorio de GitHub.
https://github.com/renzoguerrero17/Clus ... do-K-means


Responder