RLHF y RLAIF, Revolución Silenciosa de la Retroalimentación Educativa
DOI:
https://doi.org/10.55420/2693.9193.v15.n2.333Palabras clave:
retroalimentación, RLHF, RLAIF, inteligencia artificialResumen
El aprendizaje reforzado a partir de comentarios se ha consolidado como una técnica innovadora en el campo del aprendizaje automático, permitiendo los modelos de inteligencia artificial (IA). La investigación compara el RLHF (Reinforcement Learning Human Feedback) y el RLAIF (Reinforcement Learning from AI Feedback). La mayoría de las investigaciones manifiestan una inclinación preferencial hacia el modelo RLAIF por su escabilidad (Khedri & Höglund, 2023; Lee et al., 2022 & Zhichao et al., 2024). Otros investigadores proponen un enfoque híbrido, integrando ambas alternativas (Dakota, M.,2024). Ambos enfoques se complementan para mejorar el proceso de aprendizaje.
Métricas
Citas
Data Camp. (2024, 29 julio). RLAIF: ¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación de la IA? Datacamp.com.
https://www.datacamp.com/es/blog/rlaifreinforcement-learning-from-ai-feedback
Dakota, M., Van Phung, D., Rafael, R., Chase, B., Nathan, L., Louis, C., Jan-Philipp, F., Chelsea, F., & Alon, A. (2024). Generative Reward Models. arXiv [cs.LG].
https://arxiv.org/html/2410.12832v1
Escuela de profesores del Perú. (2024, mayo 10). ¿Qué es la retroalimentación?, mejores formas de retroalimentación. Escuela de Profesores Del Perú. https://epperu.org/que-es-la-retroalimentacion-mejores-formas-de-retroalimentacion/
González, A. (2013, julio 29). El gran negocio de la educación. Colima medios. https://colimamedios.com/el-gran-negocio-de-la-educacion/
Herrera-Araya, David. (2023). Perspectivas e investigación reciente sobre retroalimentación en el aula: Consideraciones para un enfoque pedagógico y dialógico. Revista Electrónica Educare, 27(1), 589-608. https://dx.doi.org/10.15359/ree.27-1.14547
Khedri, J., & Höglund, S. (2023). Comparison Between RLHF and RLAIF in Fine-Tuning a Large Language Model School of Electrical Engineering and Computer Science (EECS). https://www.diva-portal.org/smash/get/diva2:1782683/FULLTEXT01.pdf
Lee, H., Phatale, S., Mansoor, H., Mesnard, T., Ferret, J., Lu, K., Bishop, C., Hall, E., Carbune, V., Rastogi, A., Prakash, S. (2024, julio 21). RLAIF vs. RLHF: Proceedings of the 41st International Conference on Machine Learning. Guide Proceedings. https://dl.acm.org/doi/10.5555/3692070.3693141
Luna Acuña, M. L., Peralta Roncal, L. E., Gaona Portal, M. del P., & Dávila Rojas, O. M. (2022). La retroalimentación reflexiva y logros de aprendizaje en educación básica: una revisión de la literatura. Ciencia Latina Revista Científica Multidisciplinar, 6(2), 3242-3261.
Nanobaly. (2024). Aprendizaje RLHF para LLM y otros modelos. Innovatiana.com. https://es.innovatiana.com/post/rlhf-our-detailed-guide
Núñez-Valdés, K., Gerson Núñez-Valdés, & Castillo-Paredes, A. (2024). Retroalimentación en el contexto educativo: Una revisión sistemática. Formación Universitaria, 17(2), 61–72. https://doi.org/10.4067/s0718-50062024000200061
sapien. (2024). RLAIF vs. RLHF: A Detailed Comparison of AI Training Methods. Sapien.io. https://www.sapien.io/blog/rlaif-vs-rlhf-understanding-the-differences
Sobrido Prieto, M., & Rumbo-Prieto, J. M. (2018). La revisión sistemática: pluralidad de enfoques y metodologías. Enfermería Clínica, 28(6), 387–393. https://doi.org/10.1016/j.enfcli.2018.08.008
Umáximo. (s.f.). Retroalimentación educativa: ¿Cómo transformar el aprendizaje escolar? Umaximo.com. Recuperado 7 marzo, 2025, de https://www.umaximo.com/post/retroalimentacion-educativa-como-transformar-el-aprendizaje-escolar
Vocerol. (2018). Automatización de la retroalimentación: ¿Cómo la IA puede mejorar la evaluación del desempeño en los sistemas de gestión del aprendizaje? Psicosmart.pro. https://psicosmart.pro/articulos/articulo-automatizacion-de-la-retroalimentacion-como-la-ia-puede-mejorar-la-evaluacion-del-desempeno-en-los-sistemas-de-gestion-del-aprendizaje-202980
What is a Large Language Model (LLM). (2023, junio 4). GeeksforGeeks. https://www.geeksforgeeks.org/large-language-model-llm/
Zhichao, W., Bin, B., Pentyala, S. K., Kiran, R., Sougata, C., Shubham, M., Zixu, Zhu, Xiang-Bo, M., Sitaram, A., Na, & Cheng. (2024). A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More. En arXiv [cs.CL]. http://arxiv.org/abs/2407.16216
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Elizabeth Díaz-Rodríguez

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Open Access Policy Statement
HETS Online Journal has adopted an open access policy and provides immediate access to its content free of charge to the reader. The journal does not pass on the cost of publication or submission of manuscripts, known as an Article Processing Charge (APC), to authors.
HOJ is licensed under CC-BY-NC-SA.