Temas acerca de Inteligencia Artificial
Foto de Usuario
jbrcaballero

Ranking Troomes
Mensajes: 3
Registrado: 11 Sep 2021, 10:49

Clustering de casos de fallecidos por COVID-19 en el Perú

Mensaje por jbrcaballero » 23 Nov 2021, 10:44

Alumno: José Caballero

1. Título
Clustering de casos de fallecidos por COVID-19 en el Perú


2. Resumen
El presente trabajo utiliza información disponible a través del portal de datos abiertos del gobierno del Perú, en particular, información de fallecidos por COVID-19 que vincula la información de aquellos ciudadanos que estuvieron hospitalizados y la información correspondiente a sus dosis de vacunas COVID, en caso de haberlas recibido. Con dicha información se aplicaron técnicas de clustering para poder agrupar estos resultados sobre la base de sus características. Para lograr ello, se utilizará el algoritmo de Expectation Maximization (EM) y se compararán los resultados con los obtenidos con el algoritmo K-Means.

3. Descripción del Dataset
Se tomó en cuenta el dataset "Fallecidos, hospitalizados y vacinados por COVID-19". El link original es el siguiente:
https://www.datosabiertos.gob.pe/datase ... r-covid-19
La información contiene datos generales de la persona, así como datos de su hospitalización y su seguimiento. También cuenta con la información de la aplicación de vacunas a cada ciudadano, incluyendo las fechas de las dosis y el fabricante de la vacuna.
Puntualmente, los campos de los cuales consta el dataset son los siguientes:
  • [id_persona]:id persona
  • [fecha_fallecimiento]:fecha fallecimiento
  • [edad]:edad
  • [sexo]:sexo
  • [criterio_fallecido]:criterio fallecido
  • [ubigeo_cdc]:ubigeo cdc
  • [dpt_cdc]:dpt cdc
  • [prov_cdc]:provincia
  • [dist_cdc]:distrito
  • [cdc_positividad]:positividad
  • [fecha_dosis1]:fecha dosis1
  • [fecha_dosis2]:fecha dosis2
  • [fabricante_vacuna]:fabricante vacuna
  • [flag_hospitalizado]:flag hospitalizado
  • [eess_renaes]:eess renaes
  • [eess_diresa]:eess diresa
  • [eess_red]:eess red
  • [eess_nombre]:eess nombre
  • [fecha_ingreso_hosp]:fecha_ingreso_hosp
  • [flag_uci]:flag uci
  • [fecha_ingreso_uci]:fecha ingreso uci
  • [fecha_ingreso_ucin]:fecha ingreso ucin
  • [con_oxigeno]:con oxigeno
  • [con_ventilacion]:con ventilacion
  • [fecha_segumiento_hosp_ultimo]:fecha segumiento hosp ultimo
  • [evolucion_hosp_ultimo]:evolucion hosp ultimo
  • [ubigeo_inei_domicilio]:ubigeo inei domicilio
  • [dep_domicilio]:dep domicilio
  • [prov_domicilio]:prov domicilio
  • [dist_domicilio]:dist domicilio
3. Descripción de los Resultados Obtenidos

Para realizar esta agrupación se realizaron 3 experimentos. El primero de ellos con el objetivo de determinar la cantidad óptima de clusters para trabajar, para ello se utilizó el algoritmo de Expectation Maximization (EM). En el segundo experimento utilizamos la cantidad de clusters calculados como entrada para poder ejecutar el algoritmo K-Means. Finalmente, para el tercer experimento, utilizamos la misma cantidad de clusters para volver a ejecutar el clustering utilizando el algoritmo de EM, a fin de compararlo con el algoritmo de K-Means en términos netamente de rendimiento.

Utilizando el algoritmo de EM pudimos determinar el número óptimo de clusters que, en el siguiente experimento, consideramos como parámetro de entrada para el algoritmo K-Means. La técnica utilizada para poder llegar a este valor fue cross-validation, adaptada para un problema de aprendizaje no supervisado. La literatura sugiere que, aplicando esta técnica, podemos tener mejores resultados que con los métodos tradicionales.

La cantidad de clusters obtenida con el algoritmo de EM fue de 5, quedando la distribución de instancias de la siguiente forma:

Time taken to build model (full training data) : 1898.82 seconds

=== Model and evaluation on training set ===

Clustered Instances

0 34616 ( 18%)
1 902 ( 0%)
2 34300 ( 17%)
3 123848 ( 63%)
4 3869 ( 2%)


Observamos una cantidad bastante baja de instancias para los clusters 1 y 4.
En el siguiente experimento, utilizamos el algoritmo K-Means, tomando en cuenta 5 clusters. Teniendo este dato como entrada, la ejecución fue bastante rápida y permitió obtener los siguientes resultados:

=== Model and evaluation on training set ===
Time taken to build model (full training data) : 7.39 seconds
Clustered Instances

0 21737 ( 11%)
1 22018 ( 11%)
2 62736 ( 32%)
3 41321 ( 21%)
4 49723 ( 25%)


Finalmente, volvimos a utilizar el algoritmo de EM, a fin de evaluar el tiempo de ejecución cuando la cantidad de clusters es dada como entrada, el tiempo de ejecución fue mucho menor.

Time taken to build model (full training data) : 43.35 seconds

=== Model and evaluation on training set ===

Clustered Instances

0 34616 ( 18%)
1 902 ( 0%)
2 34300 ( 17%)
3 123848 ( 63%)
4 3869 ( 2%)


4. Conclusiones
  • Se mostró la eficia del método de cross-validation para aplicarse a un problema no supervisado, de forma que permita obtener la cantidad óptima de clusters. Para el caso del dataset elegido, fueron 5 clusters
  • La composición de los clusters obtenida por ambos algoritmos es significativamnete diferente, obteniendo un cluster dominante en el caso del algoritmo de RM, y una composición más equilibrada para el algoritmo de K-Means
  • En términos de rendimiento, la ejecución del experimento con los clusters como entrada significó una drástica disminución en el tiempo total para el algoritmo de EM, pasando de un tiempo mayor que media hora a menos de un minuto de ejecución.
  • A nivel de tiempo de ejecución, el algoritmo de K-Means continúa siendo más rápido que EM, inclusive con el número de clusters dado como entrada.


Responder