Temas acerca de Inteligencia Artificial
Foto de Usuario
AugustoChoy

Ranking Troomes
Mensajes: 5
Registrado: 11 Sep 2021, 13:12

Algoritmo de ‘Clustering’ Para Determinar los ‘Clusters’ que se Obtienen de los Datos de Síntomas y Enfermedades de Paci

Mensaje por AugustoChoy » 22 Nov 2021, 14:16

Título:
“Algoritmo de ‘Clustering’ Para Determinar los ‘Clusters’ que se Obtienen de los Datos de Síntomas y Enfermedades de Pacientes Fallecidos con Posibilidad de COVID19.”

Resumen:
El algoritmo de “clustering” ha sido ejecutado en la Certificado de Defunciones en datos abiertos del gobierno del Perú. En el trabajo se utilizó RandomTree para establecer el árbol de decisión que se utiliza en la tabla, luego se procesó con el algoritmo de K-Means para 2, 3 y 4 “clusters” a fin de visualizar la relación entre los síntomas y enfermedades con las causas de fallecimiento de estos pacientes.

Descripción de los datos originales
Los datos fueron obtenidos del siguiente enlace de datos abiertos del Gobierno del Perú: https://www.datosabiertos.gob.pe/datase ... efunciones el archivo se llama TB_SINADEF.csv y su estructura es como sigue:
Los atributos de los datos son como sigue: id_persona – correlativo entero, tipo-seguro – tipo de seguro del fallecido, sexo - M para masculino, F para femenino, edad – número entero que puede estar en años u otra unidad, tiempo-edad – las unidades usadas en la edad, estado-civil – casado, soltero viudo, divorciado o conviviente, nivel-de-instrucción – iñetradp, básico, primario, secundario superior, ténico completo o no completo, cod-ubigeo-domicilio - código de ubigeo del lugar de residencia del fallecido, país-domicilio – país de origen, departemento-domicilio, provincia-domicilio, distrito-domicilio, fecha – fecha de defunción, año, mes, tipo-lugar – lugar de defunción, institución – institución de defunción, muerte-violenta – si murió violentamente, necropsia – si hubo o no necropsia, sigue una lista de 6 síntomas o enfermedades cada una con dos campos desde la A a la F dos atributos por cada grupo: debido-a y causa - un código de la causa y una descripción de la enfermedad. Debido a la cantidad de datos y que no corría fácilmente, se eliminaron las columnas que no ayudaban al clustering y se trabajaron los códigos en el orden en el que se encontraron, pero debido a que las enfermedades y síntomas ocurrían en cualquier orden los que cargaron los datos no ponían los síntomas en un mismo orden podían aparecer en cualquiera de los 6 grupos de síntoma/enfermedad. Las corridas no conducían a conclusión alguna.
Para que el trabajo tuviera más sentido, se seleccionaron las enfermedades/síntomas de mayor incidencia y se creó una columna para cada síntoma y se puso 1 en el caso que existiera el síntoma o enfermedad en el paciente y cero en el caso contrario. Con estos datos se realizó en análisis con K-Means de 2, 3 y 4 agrupaciones. De esta manera los resultados llegaron a dar más luz sobre la situación a analizar.

Descripción de los resultados con las técnicas utilizadas
Con estos datos así organizados se procesó primero con REPTree para reconocer la importancia de los atributos en un árbol de decisión y de esta manera tener una mejor comprensión sobre los datos.
Seguidamente se tomaron los mismos datos para su procesamiento en k-Mean para 2, 3 y 4 clusters. Los resultados obtenidos por ambos algoritmos hicieron más clara la organización de los datos como se explica a continuación.

Descripción de los resultados con las técnicas utilizadas
La corrida con REPTree dio más importancia al síntoma U071 (el paciente no tuvo COVID19 confirmado) en el primer subárbol el síntoma más importante fue el B972 (que el paciente no tiene otros síntomas realcionados con el Coronavirus y luego el B342 (que el paciente no tuvo infección debida al coronavirus). Por otro lado, el árbol se trunca en el otro ramal una vez que U071 es 1 (se confirmó el COVID19) los demás síntomas se vuelven irrelevantes. El coeficiente de correlación es 0.979 y el error absoluto medio es de 0.012, lo cual indica que el modelo está trabajando bien.
En la corrida con K-Means para 2 clusters, vemos que dividió las muestras en 35% para el cluster 0 y 65% para el 1, El atributo diferenciador entre los dos conglomerados es el J960 (Insuficiencia Respiratoria Aguda), el cluster 0 tiene valor 0, es decir, sin insuficiencia respiratoria, y el cluster 1 tiene el 1 o con insuficiencia.
Debemos resaltar que los síntomas E108 (diabetes mielitus), E43X (desnutrición calórica severa), G936 (hipertensión intracraneana), J151 (neumonía por pseudomona), J961 ( insuficiencia respiratoria refractaria), J989 (insuficiencia respiratoria aguda), K566 (obstrucción intestinal), K729 (encefalopatía hepática), R060 (disnea), R278 (falla multiorgánica) R69X (Causas de morbilidad desconocidas y no especificadas) y S069 (Traumatismo encéfalo craneano) no aparecen en el cluster 0 en la primera corrida de 2 clusters.
En la segunda corrida para 3 clusters, vemos que dividió las muestras en 23% para el cluster 0, 32% para el 1 y 45% para el 2. El atributo diferenciador entre los tres conglomerados sigue siendo el J960 (Insuficiencia Respiratoria Aguda), el cluster 0 tiene valor 0, es decir, sin insuficiencia respiratoria, y el cluster 1 tiene el 1 con insuficiencia y el cluster 2 tiene una combinación de ambos.
En la segunda corrida, para 3 clusters: Todos los casos con C61X (cáncer de próstata) pasaron al conglomerado 2, el cluster 1 no tiene E108, E43X, J151, J961, J989, K566, R060, R278 y R69X al igual que en la corrida anterior, vemos que los dos clusters 1, de la primera y segunda corridas, tienen mucho en común y que el cluster 2 se ha formado de tomar elementos del 0 y el 1 anteriores.
Finalmente, en la tercera corrida para 4 clusters: Todos los casos con C61X (cáncer de próstata) están entre los conglomerados 0 y 2, el cluster 1 no tiene E108, E43X, J151, J961, J989, K566, R060, R278 y R69X al igual que en las corridas anteriores, vemos que los tres clusters 1 tienen mucho en común y que el cluster 2 y 3 se han formado de tomar elementos del 0 y el 1 anteriores.

Conclusión
El Portal de Datos Abiertos del Gobierno del Perú es una fuente de datos de lo más diverso, este acceso es un medio de promover la transparencia y que permite que el ciudadano de a pie pueda analizar y sacar sus conclusiones sobre que se está haciendo y a la vez aportar para mejorar las cosas para nuestra sociedad. El presente trabajo ha modificado la estructura de los datos provistos para un mejor procesamiento y obtener mejores conclusiones. Como en todo campo, una vez obtenidos los clusters, es necesaria la participación de un experto en la materia para que las conclusiones sean basadas en el conocimiento del experto y se pueda extraer experiencias coherentes y que ayuden a mejorar la situación. En este trabajo sólo hemos trabajado los datos y sus resultados sin tener mayor conocimientos de medicina por ello nuestras conclusiones carecen de la profundidad que tendrían si trabajáramos con un experto en COVID.


Responder