Evaluación del modelo de aprendizaje automático supervisado y no supervisado para predecir promoción de empleados

aldomar · Mensaje por **aldomar** » 05 Ago 2023, 09:39

Evaluación del Modelo de Aprendizaje Automático Supervisado y No Supervisado para Predecir Promoción de Empleados

INTEGRANTES

Alicia Rodríguez

Aldo Morales

Eric Jara

RESUMEN
En este trabajo de investigación se evaluarón modelos de Machine Learning Supervisado y No Supervisado para predecir la promoción de empleados en una agencia de reclutamiento internacional. Los modelos Supervisados (J48, REPTree, Random Forest, MultilayerPerceptron, SMV y BayesNet) y No Supervisado (SimpleKMeans con 2 y 4 agrupaciones, EM y XMeans) se aplicaron a una base de datos de 52,249 registros que incluye información como identificación de empleados, departamento, nivel educativo, género, canal de contratación, edad, duración del servicio, calificación previa, premios, promedio de evaluaciones y la variable objetivo de promoción. Se propone una solución para aplicar el análisis en datos en tiempo real y predecir promociones efectivamente.

INTRODUCCIÓN
Adecco, con sede en Zúrich, Suiza, es una destacada agencia de reclutamiento internacional, formada en 1996 por la fusión de Adia y Ecco. Cuenta con más de 5,000 oficinas en 60 países. El equipo de Recursos Humanos de Adecco almacenó datos del ciclo de promoción 2022, pero la gran cantidad de detalles ha dificultado la comparación y toma de decisiones. Adecco busca mejorar la modalidad de promoción mediante soluciones flexibles de contratación de personal para diversos departamentos y la gestión según las necesidades laborales.

PREPROCESAMIENTO DE DATOS

Limpieza de datos: Se eliminaron datos incoherentes, inconsistentes, nulos y vacíos, así como valores atípicos.

Integración de datos: Se verificó y ajustó el formato de los datos para que fueran consistentes en tamaño, tipo y estructura.

Filtración de datos: Se eliminaron variables no relevantes para el análisis y se convirtieron datos numéricos a nominales para aplicar algoritmos de clasificación.

[

MODELAMIENTO

J48: Es uno de los algoritmos de clasificación más importantes que utiliza la recursividad y la regresión para dividir los datos en partes más pequeñas según sus características de los atributos. Construye un árbol de decisión, de acuerdo a las instancias asignados a la variable objetivo.

REPTree: Algoritmo de clasificación fundamentado en árboles de clasificación, que utiliza la recursividad. Divide los datos de la misma manera que el algoritmo J48, en subconjuntos más pequeños de acuerdo a sus características, pero la diferencia es el tamaño del árbol y evita el sobreajuste.

Random Forest: Algoritmo de clasificación y regresión que combina varios árboles de decisión para mejorar la precisión y robustez del modelo. Utiliza muestras aleatorias del conjunto de entrenamiento y es resistente al sobreajuste.

Multilayer Perceptron (Redes Neuronales): Algoritmo de aprendizaje profundo que puede aprender relaciones lineales y no lineales en datos complejos. Requiere gran cantidad de datos y fuerza computacional.

Support Vector Machine (SVM): Algoritmo de clasificación y regresión que separa muestras de diferentes clases utilizando hiperplanos en el espacio de características.

BayesNet (Redes Bayesianas): Algoritmo de clasificación basado en la teoría de grafos dirigidos para modelar las relaciones probabilísticas entre variables.

SimpleKMeans: Algoritmo de agrupación no supervisado que busca estructuras semánticas entre datos y minimiza la suma de los cuadrados de las distancias entre instancias y centroides.

EM (Expectation-Maximization): Algoritmo no supervisado que calcula la mejor estimación de agrupaciones basada en parámetros estadísticos de los datos.

CONCLUSIONES

La inteligencia artificial es una materia que nos puede ayudar a describir, predecir y dar una predicción de situaciones reales mediante análisis de los datos, así mismo, simula las características que tiene los expertos de un dominio mediante un motor de inferencia para comprender, simular y resolver problemas.

Se ha utilizado herramientas de Machine Learning (Weka y R Studio) para el caso de estudio de predicción de “Promoción de Empleados” de la empresa Adecco.

En particular se usó los algoritmos de clasificación “J48”, “REPTree”, “Random Forest”, “Multilayer Perceptron”, “Soporte de Máquinas Vectorial SMV” y “BayesNet” y algoritmos de agrupación como “SimpleKMeans” y “EM”.

Para el uso de los algoritmos de clasificación se aplicó el preprocesado de datos mediante métodos de sobremuestreo y submuestreo, y balanceo de datos aplicando el filtro “SMOTE”, para tener un modelo de predicción más eficiente en el “TP Rate” de los empleados que son promovidos o no.

Aplicado el auto aprendizaje, se logró identificar el mejor algoritmo para el dataset con todo sus filtros y parámetros, obteniendo como resultado el modelo óptimo y eficiente, el cual es “Random Forest”.

A través del algoritmo EM de aprendizaje no supervisado se logró calcular el número de clusters óptimo que es 4 y esta fue contrastada con Rstudio aplicando el “Elbow Method”.

La variable con mayor importancia de acuerdo al evaluador de atributos “InfoGainAttributeEval” con el método de búsqueda “Ranker” fue elegido el “promedio de evaluación”.

Finalmente, el trabajo de investigación fue presentado al equipo de RR.HH de Adecco, lo cual se mostraron satisfechos con los resultados, y el modelo les apoyará mucho a la problemática de la empresa identificando aspectos con mayor importancia para la toma de decisiones con el objetivo de promover al empleado ideal.

DISCUSIONES

Este caso de investigación se diferencia a otros estudios por motivo que pone en aplicación 2 de las 3 categorías de aprendizaje automatizado.

Además, que la aplicación de los algoritmos es personalizada de acuerdo al caso, que es la promoción de empleados. Por lo pone en juicio, ¿Cuál es la mejor categoría de aprendizaje? Entonces tenemos que recordar a la rama de la matemática llamada Investigación de Operaciones que indica lo siguiente, Taha (2017) “cualquier problema que tenga soluciones óptimas múltiples, tendrá un número infinito de soluciones, con el mismo valor de la función objetiva”.

Tomando en cuenta lo mencionado, se puede decir que los trabajos tuvieron factores únicos que le hicieron diferentes al nuestro, por lo consiguiente tuvieron como resultado un algoritmo óptimo diferente a nuestro caso de investigación. Pero se tuvo en cuenta que el estudio es congruente y coherente con la aplicación. Por lo que podemos decir que la estructura del dataset, limpieza, integración y filtrado de datos, y el balanceo de datos fueron realizados de manera deferente a la tipología de los estudios citados en el capítulo del estado del arte.

Archivos adjuntos
Presentación
Paper de la investigación
Dataset WEKA
Dataset RStudio