Temas acerca de Inteligencia Artificial
Foto de Usuario
Wester.Zela

Ranking Troomes
Mensajes: 703
Registrado: 10 Ago 2013, 16:45
Ubicación: Lima,Peru
Contactar:

¿Como se entrenó ChatGPT?

Mensaje por Wester.Zela » 09 Dic 2022, 12:39

¿Sabes cómo se entrenó ChatGPT? ¡ChatGPT es un modelo GPT-3 perfeccionado con una cantidad de datos sorprendentemente pequeña! ¡Además, ChatGPT usa parámetros 1.3B donde GPT-3 usa parámetros 175B! Primero se afina con el aprendizaje supervisado y luego se afina aún más con el aprendizaje por refuerzo. Contrataron a 40 etiquetadores humanos para generar los datos de entrenamiento. ¡Vamos a profundizar en ello!

- Primero, comenzaron con un modelo GPT-3 preentrenado entrenado en una amplia distribución de datos de Internet (https://arxiv.org/pdf/2005.14165.pdf). Luego, tomó muestras de indicaciones humanas típicas utilizadas para GPT recopiladas del sitio web de OpenAI y pidió a los etiquetadores y clientes que escribieran el resultado correcto. Refinaron el modelo con 12.725 datos etiquetados.

- Luego, tomaron muestras de indicaciones humanas y generaron múltiples salidas del modelo para cada una de las indicaciones. Luego se le pide a un etiquetador que clasifique esos resultados. Los datos resultantes se usan para entrenar un modelo de Recompensa (https://arxiv.org/pdf/2009.01325.pdf) con 33 207 indicaciones y ~10 veces más muestras de entrenamiento usando diferentes combinaciones de resultados clasificados.

- Luego muestreamos más indicaciones humanas y se utilizan para ajustar el modelo de ajuste fino supervisado con el algoritmo de optimización de políticas próximas (PPO), un algoritmo de aprendizaje por refuerzo (https://arxiv.org/pdf/1707.06347.pdf). El mensaje se alimenta al modelo PPO, el modelo de Recompensa genera un valor de recompensa y el modelo PPO se ajusta iterativamente usando las recompensas y los mensajes usando 31,144 datos de mensajes.

Este proceso se describe completamente aquí: https://arxiv.org/pdf/2203.02155.pdf. El documento en realidad detalla un modelo llamado InstructGPT que OpenAI describe como un "modelo hermano" de ChatGPT, por lo que los números que se muestran arriba pueden ser ligeramente diferentes de los exactos que se usan para ChatGPT.
1670603549092.jpg


estimados alumnos de IA, he subido las notas de la primera practica #status
Responder