Temas acerca de Inteligencia Artificial
Foto de Usuario
juanmansilla

Ranking Troomes
Mensajes: 9
Registrado: 14 Sep 2021, 17:21

Modelo de Clustering Linaje Genómico de las Pruebas Moleculares del INS para el Covid19

Mensaje por juanmansilla » 22 Nov 2021, 20:40

Nombre: Juan Pablo Jesús Mansilla López

1. Título: Linaje Genómico de las Pruebas Moleculares del INS para el Covid19

2. Resumen

El presente trabajo trata sobre la agrupación de datos de las pruebas moleculares de COVID19 tomadas de la base de datos del INS. El dataset de datos tuvo que ser preparado consignado la descripción de la variante según el tipo de linaje. Se tomó el 100% de los datos para el entrenamiento con el algoritmo k-means formado 5 clusters. Luego de las evaluaciones se consideró tomar las variables grupo etareo y variante para formar los clusters siguientes: adulto-lambda, joven-‘Linaje Peruano', adulto-gamma, adulto-alfa y adulto-otros.

3. Descripción de DataSet

Enlace a la fuente de datos abiertos:
Dataset - Resultado de Linaje Genómico de Pruebas Moleculares del Instituto Nacional de Salud para COVID-19 (INS) | Plataforma Nacional de Datos Abiertos
https://www.datosabiertos.gob.pe/datase ... l-de-salud

Los datos que fueron importados al modelo mantienen la estructura siguiente: grupo_etareo, edad, sexo, institución, departamento, linaje y variante. Asimismo, el tratamiento de datos se realizó mediante sentencias SQL las cuales se presentan a continuación:

select edad,
grupoetareo = case
when edad<=4 then 'Infante'
when (edad>=5 and edad<=9) then 'Nino'
when (edad>=10 and edad<=14) then 'Adolescente'
when (edad>=15 and edad<=29) then 'Joven'
when (edad>=30 and edad<=64) then 'Adulto'
when (edad>=65) then 'Tercera Edad'
end,
sexo,
Institucion,
departamento = case
when departamento_paciente = '' then 'CALLAO'
else departamento_paciente
end,
resultado,
Linaje = substring(resultado, 8, len(resultado))
into #pmgenoma
from [dbo].[pmGenoma_25Septiembre2021]

select grupoetareo,
edad,
sexo,
Institucion,
departamento,
Linaje,
variante = case
when (rtrim(linaje) = 'B.1' or rtrim(linaje) = 'B.1.1' or rtrim(linaje) =
'B.1.1.1')then 'Alfa'
when (rtrim(linaje) = 'P.1' or rtrim(linaje) = 'P.1.4' or rtrim(linaje) =
'P.1.7') then 'Gamma'
when (rtrim(linaje) = 'B.1.62' or rtrim(linaje) = 'B.1.621.1' or
rtrim(linaje) = 'B.1.621') then 'Mu'
when rtrim(linaje) = 'AY.4' then 'Delta Plus'
when (rtrim(linaje) = 'B.1.1.348' or rtrim(linaje) = 'C.37') then 'Lambda'
when (rtrim(linaje) = 'B.1.617.2' or rtrim(linaje) = 'AY.12' or rtrim(linaje)
= 'AY.11') then 'Delta'
when rtrim(linaje) = 'B.1.1.485' then 'Linaje Suizo'
when (rtrim(linaje) = 'C.4' or rtrim(linaje) = 'C.14') then 'Linaje Peruano'
when rtrim(linaje) = 'B.1.1.7' then 'Linaje Nueva Zelanda'
when rtrim(linaje) = 'AY.25' or rtrim(linaje) = 'AY.20' or rtrim(linaje) =
'AY.14' then 'Linaje USA'
else 'Otros'
end
into pmgenoma3
from #pmgenoma

El gráfico siguiente presenta la distribución por edades y grupo etáreo de los datos cargados en los que se aprecia una presencia notoria de población adulta seguida de población joven en la participación de toma de pruebas de COVID19. Asimismo, la distribución por género es de 49.25% para hombres y 50.75% para mujeres.

De otra parte, las tomas de muestras han sido realizadas en su mayor parte en Lima con una participación de 26% seguido de Arequipa con 8%, La Libertad, Junín entre otros.

4. Descripción de los resultados obtenidos con la técnica K-Means
Luego de realizar las verificaciones se consideró que se formen 5 clusters; asimismo, incluir sólo variables relevantes retirando de la evaluación edad, sexo, institución y departamento. El enfoque se dirigió a formar los clusters basados en grupos etáreo y variante.

=== Run information ===

Scheme: weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 5 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10
Relation: Linaje
Instances: 6371
Attributes: 7
grupoetareo
variante
Ignored:
edad
sexo
Institucion
departamento
Linaje
Test mode: evaluate on training data


=== Clustering model (full training set) ===


kMeans
======

Number of iterations: 3
Within cluster sum of squared errors: 2597.0

Initial starting points (random):

Cluster 0: Adulto,Lambda
Cluster 1: Joven,'Linaje Peruano'
Cluster 2: Adulto,Gamma
Cluster 3: Adulto,Alfa
Cluster 4: Adulto,Otros

Missing values globally replaced with mean/mode

Final cluster centroids:
Cluster#
Attribute Full Data 0 1 2 3 4
(6371.0) (4248.0) (920.0) (937.0) (142.0) (124.0)
=========================================================================================
grupoetareo Adulto Adulto Joven Adulto Adulto Adulto
variante Lambda Lambda Gamma Gamma Alfa Otros

Time taken to build model (full training data) : 0.01 seconds

=== Model and evaluation on training set ===

Clustered Instances

0 4248 ( 67%)
1 920 ( 14%)
2 937 ( 15%)
3 142 ( 2%)
4 124 ( 2%)

5. Conclusiones

• Luego del anáisis de los datos, se consideró por conveniente limpiar y consolidar datos con el apoyo de sentencias SQL; se propuso crear las agrupaciones grupo etáreo y variante a partir de los datos edad y linaje proveniente del dataset.

• Se consideró formar 5 clusters incluyendo las variables consolidadas grupo etáreo y variante considerando los clusters: adulto-lambda, Joven-linaje peruano, adulto-ganma, adulto-alfa y adulto-otros; los dos últimos con una participación menor 4% podrían ser unificados y considerados como un solo cluster de adulto-otros (se absorbe a adulto-alfa en otros) consolidado en 4 clusters.


Responder