Página 1 de 1

MODELO PREDICTIVO PARA DETECCIÓN DE OBESIDAD APLICANDO MACHINE LEARNING

Publicado: 02 Ago 2025, 22:44
por angeljoel
Autores:
Abarca Urbano, Grimaldo René
Alvarado Crisanto, Angel Joel
Fernández Purizaca, Javier Alexander
Valega Marquina, Jorge Raúl
Resumen:
El presente proyecto tuvo como objetivo principal el desarrollo y la evaluación de un modelo de aprendizaje automático (machine learning) capaz de predecir si un paciente sufre de obesidad o sobrepeso a partir de un conjunto de datos clínicos, demográficos y geográficos.
El proceso se inició con una fase exhaustiva de preparación y limpieza de datos. Se abordaron desafíos como la eliminación de registros de pacientes con diagnósticos inconsistentes, la estandarización de procedimientos de laboratorio y la conversión de todas las mediciones a unidades uniformes (mg/dL). Se realizó un tratamiento cuidadoso de los valores atípicos, imputando aquellos que eran fisiológicamente irreales para no perder información valiosa. Adicionalmente, se aplicó ingeniería de características para enriquecer el dataset, utilizando el código UBIGEO para incorporar nuevas variables predictivas como el nivel socioeconómico, la altitud y la prevalencia de la zona.
Para la fase de modelado, se evaluaron cuatro algoritmos distintos: Árbol de Decisión, Random Forest, XGBoost y una Red Neuronal. Se implementó una metodología robusta utilizando un pipeline que integraba el balanceo de clases con SMOTE (para corregir la desproporción entre casos de obesidad y sobrepeso) y el escalado de datos. El rendimiento de los modelos se optimizó mediante una búsqueda de hiperparámetros (BayesSearchCV) y se validó rigurosamente para asegurar su capacidad de generalización.
Los resultados demostraron la clara superioridad de los modelos de ensamblado (Random Forest y XGBoost) sobre el Árbol de Decisión. Tras una comparativa detallada de métricas clave, el modelo XGBoost fue seleccionado como la solución óptima, alcanzando un rendimiento destacado en el conjunto de prueba:
• Accuracy: 74.2%
• F1 Score: 0.823
• AUROC: 0.758
En conclusión, el proyecto ha culminado con éxito en la creación de un modelo predictivo fiable y competitivo, cuyo rendimiento se alinea con los estándares reportados en la literatura científica. Este modelo no solo es una herramienta técnica validada, sino que representa un activo estratégico con un impacto potencial significativo para la organización. Permite la identificación temprana y estratificación de pacientes en riesgo, facilita la optimización de recursos para programas de prevención, sirve como apoyo a la decisión clínica y ofrece información valiosa para la planificación de políticas de salud pública a nivel geográfico.
Palabras Clave:
Obesidad, Sobrepeso, Latinoamérica, OMS, IMC, IA, ML, XGBoost, Random Forest, Red Neuronal, Árbol de decisión, Feature Engineering, One-hot encoding, StandardScaler, EDA, Clasificación binaria