Temas acerca de Inteligencia Artificial
Foto de Usuario
hans1801

Ranking Troomes
Mensajes: 4
Registrado: 14 Nov 2020, 14:35
Contactar:

Modelo de clasificación de causa de muerte por COVID-19 – MINSA

Mensaje por hans1801 » 15 Ene 2021, 09:23

Modelo de clasificación de causa de muerte por COVID-19 – MINSA


1. Resumen del Trabajo
En este trabajo se busca determinar el mejor modelo de clasificación para determinar si una persona falleció a causa de COVID-19 o no, haciendo uso del conjunto de datos publicados por el Sistema Informático Nacional de Defunciones – SINADEF – MINSA. Para el desarrollo del modelo se realizaron en las siguientes etapas: identificación e interpretación de los atributos de la base de datos, preparación del conjunto de datos, evaluación de los modelos predictivos, conclusión.

2. Identificación e interpretación de los atributos de la base de datos
El conjunto de datos es un archivo “.csv” con nombre fallecidos_sinadef.csv presenta un total de 543355 registros con los siguientes atributos:

N°: Identificador del registro
Tipo Seguro: Tipo de seguro del fallecido
Sexo: Sexo identificado en el fallecido
Edad: Edad estimada del fallecido
Tiempo Edad: Edad del fallecido
Estado civil: Estado civil del fallecido
Nivel de Instrucción: Nivel de Instrucción del fallecido
Cod Ubigeo: Código de ubigeo del fallecido
Departamento Domicilio: Departamento de residencia del fallecido
Provincia Domicilio: Provincia de residencia del fallecido
Distrito de Domicilio: Distrito de residencia del fallecido
Fecha: Fecha de defunción del fallecido
Año: Año de defunción del fallecido
Mes: Mes de defunción del fallecido
Tipo Lugar: Tipo Lugar del fallecido
Institución: Institución del fallecido
Muerte Violenta: Tipo de muerte violenta del fallecido
Necropsia: Resultado de necropsia del fallecido
Debido A (Causa A): Descripción de la causa de muerte
Causa A (CEI - X): Código de la causa de muerte de la Causa A
Debido B (Causa B): Descripción de la causa de muerte
Causa B (CEI - X): Código de la causa de muerte de la Causa B
Debido C (Causa C): Descripción de la causa de muerte
Causa C (CEI - X): Código de la causa de muerte de la Causa C
Debido D (Causa D): Descripción de la causa de muerte
Causa D (CEI - X): Código de la causa de muerte de la Causa D
Debido E (Causa E): Descripción de la causa de muerte
Causa E (CEI - X): Código de la causa de muerte de la Causa E
Debido F (Causa F): Descripción de la causa de muerte
Causa F (CEI - X): Código de la causa de muerte de la Causa F

Al ser una base de datos creado por digitación manual se identificó inconsistencias de tipeo que son detalladas en la última sección.
Otra observación interesante es que existen varios registros “Debido a” en una misma persona fallecida y realizando una observación rápida en los datos se puede observar que existe una relación muy similar entre ellas.

3. Preparación del conjunto de datos

En esta etapa para clasificar si la causa de fallecimiento es por COVID-19 o no y en base a las observaciones encontradas en la identificación de datos, se realizó un código que toma las causas de muerte y las simplifica en un solo atributo llamado “COVID” para determinar si la causa de muerte fue por COVID o no. Adicionalmente el código realiza una transformación a los datos debido a la presencia de caracteres extraños, reduciéndolos a data alfanumérica.
img6.png
Este dataset generado al ser importado al Weka, se observa que hay desbalanceo entre las causas de muerte por COVID y no COVID.
img7.png
Para ello se usará la técnica Downsampling usando el filtro SpreadSubSample que nos ofrece Weka.
img8.png
Asimismo, se eliminarán los atributos como N°, el código de ubigeo de domicilio, distrito, provincia y país que redunda con departamento, de la misma forma se eliminará el atributo de tiempo edad ya que redunda con Edad, adicionalmente se elimina los atributos referenciados con el tiempo ya que no tienen relación con la causa de muerte (fecha, mes y año). Adicionalmente se realiza la normalización de la data con la función “Normalize” que ofrece Weka. Por último, para determinar los atributos que ofrecen mayor información se utilizará la función “InfoGainAttributeEval”, donde se puede observar en la imagen el ranking generado:
img9.png
Se tomará los 5 primeros atributos debido a que ofrecen mayor información en la data para la evaluación de los modelos, las cuales son: NECROPSIA, NIVEL DE INSTRUCCIÓN, EDAD, INSTITUCIÓN Y DEPARTAMENTO DOMICILIO.

4. Evaluación de los modelos predictivos

Una vez tratado el dataset se evaluará con los siguientes modelo: J48, Random Forest, SVM y RedesBayesianas
J48
img10.png
Random Forest
img11.PNG
Redes Bayesianas
img12.png
SVM
img13.png
5. Conclusión
El mejor modelo es el de Redes Bayesianas con un porcentaje de acierto de 70,15%, que a pesar de ser levemente menor al modelo de árbol de decisión (70,38%), el modelo de Redes Bayesianas posee un TP Rate de 76,5% en los casos positivos, que es superior al modelo de Árbol de decisión, que debido a la coyuntura del COVID-19 se le da mayor importancia a la detección de causas de muerte por COVID-19.
Se estima que los resultados fueran mejores si la data fuera más concisa el cual se explica a detalle en la siguiente sección.
Finalmente se resalta la necesidad de balancear los datos debido a que había una gran desproporcionalidad entre las causas de muerte por COVID-19 y no COVID-19.

6. Inconsistencias de la Data
La data mostraba inconsistencias en sus registros debido a errores de tipeo, como caracteres extraños en el tipeo, y las diferentes formas de escribir una misma causa de muerte, por ejemplo, en la imagen se muestra distintas formas de nominar a la causa de muerte por COVID, ya sea por sus siglas o por su nombre propio (coronavirus).
img5-.png
NOTA: El código usado en python así como el data set se encuentra en el comprimido de los archivos adjuntos.
Adjuntos
Clasificación - 2daPC - Acha Carranza Hans.rar
(19.6 MiB)


Responder