Predicción de la causa de la muerte en Perú

Temas acerca de Inteligencia Artificial
Foto de Usuario
willians124uni

Ranking Troomes
Mensajes: 3
Registrado: 13 Ago 2020, 16:22

Predicción de la causa de la muerte en Perú

Mensaje por willians124uni » 16 Ene 2021, 01:12

Predicción de la causa de la muerte en Perú
Resumen del trabajo:
En el contexto actual de la pandemia, es necesario poder predecir que tipo de personas pueden ser vulnerables por el covid 19, tanto que lo lleve al fallecimiento. En el perú los casos de fallecimiento por covid aumentan desmesuradamente, es por ello importante saber a que personas se debe tener en consideración para realizar los protocolos correspondientes. En este trabajo se utiliza la dataset de la pagina de datos abierto de la PCM, para la predicción de las causas de muerte. Existen 6 posibles causas de muerte y una de ellas es por covid, analizaremos entre estas 6 causas cuál es la causante de muerte, será una predicción Binaria, prescindiremos si la causa de muerte es por COVID(1) y otras enfermedades(0) .Se utilizará modelos de clasificación LightGBM.

Descripción del dataset:
La dataset obtenida tiene el nombre de Información de Fallecidos del Sistema Informático Nacional de Defunciones - SINADEF - [Ministerio de Salud]. obtenido en el siguiente link:
https://www.datosabiertos.gob.pe/datase ... ministerio
Las columnas iniciales del DataSet son las siguientes:
1.png
1.png (54.82 KiB) Visto 192 veces

Al analizar la data obtenemos los siguiente resultados, tenemos 13 tipos de seguros y 8 columnas convertidas de una cadena de tiempo a años, dias, meses, horas minutos , sin registro y segundos.
2.png
2.png (14.45 KiB) Visto 192 veces
3.png
3.png (9.86 KiB) Visto 192 veces

Se realizo Feature Engineering teniendo como columnas finales
Descripción de los resultados con las técnicas usadas
Se utilizo el modelo LightGBM con un K-fold de 5, con métrica AUC y con los siguientes hiperparametros:
4.png
4.png (13.17 KiB) Visto 192 veces
Los resultados fueron los siguientes:
K Fold 1
5.png
5.png (5.17 KiB) Visto 192 veces
K Fold 2
6.png
6.png (4.7 KiB) Visto 192 veces
K Fold 3
7.png
7.png (4.7 KiB) Visto 192 veces
K Fold 4
8.png
8.png (5.31 KiB) Visto 192 veces
K Fold 5
9.png
9.png (4.77 KiB) Visto 192 veces
Media y Desviación estándar
10.png
10.png (3.65 KiB) Visto 192 veces
Las 10 variables más importantes:

variable gain_1 gain_2 gain_3 gain_4 gain_5 gain-avg
0 AÑO 485870.741778 484884.107778 486792.896745 486320.515530 487855.059704 486344.664307
1 MES 138319.766388 138441.417628 137380.591886 138590.002064 138098.482009 138166.051995
2 INSTITUCION 101259.758149 103072.145314 102684.936413 103344.371681 104477.538002 102967.749912
3 NIVEL DE INSTRUCCIÓN 43353.296092 42455.676000 44346.336248 43375.953208 42565.098694 43219.272049
4 TIPO LUGAR 38835.113842 39370.297935 40104.633745 39153.058889 39753.629682 39443.346818
5 TIEMPO 32625.203456 33191.512068 33591.301462 33027.910633 34590.001210 33405.185766
6 NECROPSIA 31625.710175 32022.876367 31295.650838 31728.859321 31642.216499 31663.062640
7 DEPARTAMENTO DOMICILIO 21403.562796 21889.510326 21983.249895 23039.293078 23739.975506 22411.118320
8 PROVINCIA DOMICILIO 18587.622044 18040.012477 20005.511141 19675.127608 18607.199447 18983.094543
9 DISTRITO DOMICILIO 8955.239150 9537.085954 10935.093841 10783.521191 11158.283071 10273.844641
10 SEXO 7220.570663 7120.319189 7796.101499 7466.085497 7674.082172 7455.431804


Conclusiones
El modelo utilizado LightGBM vemos que es muy estable en cada K fold,
teniendo como media 96% de AUC y desviación estandar de 0.04 %, concluyendo es un un modelo eficiente.

Se concluye que las variables "AÑO","MES","INSTITUCION","NIVEL DE INSTRUCCIÓN","TIPO LUGAR","TIEMPO","NECROPSIA","DEPARTAMENTO DOMICILIO","PROVINCIA DOMICILIO","DISTRITO DOMICILIO" y "SEXO" son las más importante para identificar si la causa de muertes es por COVID.
Github
https://github.com/willians124/IAA


Responder