RLHF y RLAIF, Revolución Silenciosa de la Retroalimentación Educativa

Authors

  • Elizabeth Díaz-Rodríguez Universidad Ana G. Méndez

DOI:

https://doi.org/10.55420/2693.9193.v15.n2.333

Keywords:

feedback, RLHF, RLAIF, artificial intelligence

Abstract

Reinforcement learning from feedback has emerged as an innovative technique in machine learning, enhancing artificial intelligence (AI) model training. Current research compares two key approaches: RLHF (Reinforcement Learning from Human Feedback) and RLAIF (Reinforcement Learning from AI Feedback). Most studies demonstrate a preference for RLAIF due to its superior scalability (Khedri & Höglund, 2023; Lee et al., 2022; Zhichao et al., 2024).  However, other researchers advocate for a hybrid approach that strategically combines both methods (Dakota, 2024). These complementary frameworks can synergistically improve machine learning processes.

Metrics

Metrics Loading ...

Author Biography

Elizabeth Díaz-Rodríguez, Universidad Ana G. Méndez

 

 

References

Data Camp. (2024, 29 julio). RLAIF: ¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación de la IA? Datacamp.com.

https://www.datacamp.com/es/blog/rlaifreinforcement-learning-from-ai-feedback

Dakota, M., Van Phung, D., Rafael, R., Chase, B., Nathan, L., Louis, C., Jan-Philipp, F., Chelsea, F., & Alon, A. (2024). Generative Reward Models. arXiv [cs.LG].

https://arxiv.org/html/2410.12832v1

Escuela de profesores del Perú. (2024, mayo 10). ¿Qué es la retroalimentación?, mejores formas de retroalimentación. Escuela de Profesores Del Perú. https://epperu.org/que-es-la-retroalimentacion-mejores-formas-de-retroalimentacion/

González, A. (2013, julio 29). El gran negocio de la educación. Colima medios. https://colimamedios.com/el-gran-negocio-de-la-educacion/

Herrera-Araya, David. (2023). Perspectivas e investigación reciente sobre retroalimentación en el aula: Consideraciones para un enfoque pedagógico y dialógico. Revista Electrónica Educare, 27(1), 589-608. https://dx.doi.org/10.15359/ree.27-1.14547

Khedri, J., & Höglund, S. (2023). Comparison Between RLHF and RLAIF in Fine-Tuning a Large Language Model School of Electrical Engineering and Computer Science (EECS). https://www.diva-portal.org/smash/get/diva2:1782683/FULLTEXT01.pdf

Lee, H., Phatale, S., Mansoor, H., Mesnard, T., Ferret, J., Lu, K., Bishop, C., Hall, E., Carbune, V., Rastogi, A., Prakash, S. (2024, julio 21). RLAIF vs. RLHF: Proceedings of the 41st International Conference on Machine Learning. Guide Proceedings. https://dl.acm.org/doi/10.5555/3692070.3693141

Luna Acuña, M. L., Peralta Roncal, L. E., Gaona Portal, M. del P., & Dávila Rojas, O. M. (2022). La retroalimentación reflexiva y logros de aprendizaje en educación básica: una revisión de la literatura. Ciencia Latina Revista Científica Multidisciplinar, 6(2), 3242-3261.

Nanobaly. (2024). Aprendizaje RLHF para LLM y otros modelos. Innovatiana.com. https://es.innovatiana.com/post/rlhf-our-detailed-guide

Núñez-Valdés, K., Gerson Núñez-Valdés, & Castillo-Paredes, A. (2024). Retroalimentación en el contexto educativo: Una revisión sistemática. Formación Universitaria, 17(2), 61–72. https://doi.org/10.4067/s0718-50062024000200061

sapien. (2024). RLAIF vs. RLHF: A Detailed Comparison of AI Training Methods. Sapien.io. https://www.sapien.io/blog/rlaif-vs-rlhf-understanding-the-differences

Sobrido Prieto, M., & Rumbo-Prieto, J. M. (2018). La revisión sistemática: pluralidad de enfoques y metodologías. Enfermería Clínica, 28(6), 387–393. https://doi.org/10.1016/j.enfcli.2018.08.008

Umáximo. (s.f.). Retroalimentación educativa: ¿Cómo transformar el aprendizaje escolar? Umaximo.com. Recuperado 7 marzo, 2025, de https://www.umaximo.com/post/retroalimentacion-educativa-como-transformar-el-aprendizaje-escolar

Vocerol. (2018). Automatización de la retroalimentación: ¿Cómo la IA puede mejorar la evaluación del desempeño en los sistemas de gestión del aprendizaje? Psicosmart.pro. https://psicosmart.pro/articulos/articulo-automatizacion-de-la-retroalimentacion-como-la-ia-puede-mejorar-la-evaluacion-del-desempeno-en-los-sistemas-de-gestion-del-aprendizaje-202980

What is a Large Language Model (LLM). (2023, junio 4). GeeksforGeeks. https://www.geeksforgeeks.org/large-language-model-llm/

Zhichao, W., Bin, B., Pentyala, S. K., Kiran, R., Sougata, C., Shubham, M., Zixu, Zhu, Xiang-Bo, M., Sitaram, A., Na, & Cheng. (2024). A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More. En arXiv [cs.CL]. http://arxiv.org/abs/2407.16216

Published

2025-05-21

How to Cite

Díaz-Rodríguez, E. (2025). RLHF y RLAIF, Revolución Silenciosa de la Retroalimentación Educativa. HETS Online Journal, 15(2), 33-48. https://doi.org/10.55420/2693.9193.v15.n2.333

Issue

Section

Articles