Aprendizaje por refuerzo en la medicina

julioalvarado · Mensaje por **julioalvarado** » 28 Jun 2021, 20:25

Aprendizaje por refuerzo en el campo de la medicina

[1] Control de admisión eficiente en el núcleo de una red 5G basado en aprendizaje por refuerzo para el servicio de cirugía remota

Conceptos:
- Q-Learning: tipo de algoritmo de aprendizaje por refuerzo, basado en valor que aprende una función optima de acción-valor, y permite una función de política fácilmente derivable.
- El sistema de redes definidas por software (SDN) : es un programa de software que realiza una tarea en un entorno de redes definido por software.

De acuerdo con el paper referido, la problemática surge en las estimaciones que realiza la OMS (La Organización Mundial de la Salud), más de 2 mil millones de personas no reciben atención quirúrgica de manera oportuna, por la ausencia de cirujanos especializados.

Los autores, dentro de su propuesta se basan en el contexto de las Redes Definidas por Software, el cual les permite la asignación de funciones cognitivas, las cuales facilitan la toma de decisiones asertivas, y por ende necesitan un análisis de los recursos de red. Dicho análisis es sustentado bajo el Aprendizaje por Refuerzo como una de las técnicas más afines, para la optimización en el rendimiento de las redes, y que tiene como criterio principal; en la suma de decisiones pasadas para la definición de una decisión actual. Es entonces que se busca una constante recolección de información de la red para la toma de decisiones nos llevaría finalmente a un estado óptimo donde la latencia sea menor a los requeridos para la cirugía remota

Ahora mencionaremos el flujo del mecanismo de control usado que se compone por el algoritmo basado en Aprendizaje por Refuerzo, y políticas de control para dirimir la aceptación de peticiones. El algoritmo como resultado asignara, de acuerdo a los inputs de procedimientos quirúrgicos y datos de la red; una lista de peticiones aceptadas de acuerdo a dichos parámetros de entrada.

Después el algoritmo recibe la información del reporte de retroalimentación, cuyos parámetros están definidos para orientarse al manejo de políticas más optimas como es el índice de la latencia, donde de cumplir con los tiempos establecidos previamente, ganara valor las acciones tomadas por el algoritmo. En dicho cálculo de valor, está determinado por dos variables un estado y una acción misma; los cuales son estimados bajo el Algoritmo de Q-Learning.

Conclusiones:

El caso mostrado surge de un serio problema de distancia de atención del servicio de cirugía remota, el cual es un claro ejemplo de aplicación del aprendizaje por refuerzo en la medicina.

Referencias:

1. Caicedo Rendon, Oscar & Figueroa, Cristhian & Martinez Semanate, Santiago & Rincón Zapata, Jose. (2020). Control de admisión eficiente en el núcleo de una red 5G basado en aprendizaje por refuerzo para el servicio de cirugía remota.
2. Arango, Mauricio. (2019). Introducción al Aprendizaje por Refuerzo.
3. Fouzia, Fatima. (2021). Cross-layer in SDN.