RLHF y RLAIF, Revolución Silenciosa de la Retroalimentación Educativa

Autores/as

  • Elizabeth Díaz-Rodríguez Universidad Ana G. Méndez

DOI:

https://doi.org/10.55420/2693.9193.v15.n2.333

Palabras clave:

retroalimentación, RLHF, RLAIF, inteligencia artificial

Resumen

El aprendizaje reforzado a partir de comentarios se ha consolidado como una técnica innovadora en el campo del aprendizaje automático, permitiendo los modelos de inteligencia artificial (IA).  La investigación compara el RLHF (Reinforcement Learning Human Feedback) y el RLAIF (Reinforcement Learning from AI Feedback). La mayoría de las investigaciones manifiestan una inclinación preferencial hacia el modelo RLAIF por su escabilidad (Khedri & Höglund, 2023; Lee et al., 2022 & Zhichao et al., 2024). Otros investigadores proponen un enfoque híbrido, integrando ambas alternativas (Dakota, M.,2024). Ambos enfoques se complementan para mejorar el proceso de aprendizaje.

Métricas

Cargando métricas ...

Biografía del autor/a

Elizabeth Díaz-Rodríguez, Universidad Ana G. Méndez

 

 

Citas

Data Camp. (2024, 29 julio). RLAIF: ¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación de la IA? Datacamp.com.

https://www.datacamp.com/es/blog/rlaifreinforcement-learning-from-ai-feedback

Dakota, M., Van Phung, D., Rafael, R., Chase, B., Nathan, L., Louis, C., Jan-Philipp, F., Chelsea, F., & Alon, A. (2024). Generative Reward Models. arXiv [cs.LG].

https://arxiv.org/html/2410.12832v1

Escuela de profesores del Perú. (2024, mayo 10). ¿Qué es la retroalimentación?, mejores formas de retroalimentación. Escuela de Profesores Del Perú. https://epperu.org/que-es-la-retroalimentacion-mejores-formas-de-retroalimentacion/

González, A. (2013, julio 29). El gran negocio de la educación. Colima medios. https://colimamedios.com/el-gran-negocio-de-la-educacion/

Herrera-Araya, David. (2023). Perspectivas e investigación reciente sobre retroalimentación en el aula: Consideraciones para un enfoque pedagógico y dialógico. Revista Electrónica Educare, 27(1), 589-608. https://dx.doi.org/10.15359/ree.27-1.14547

Khedri, J., & Höglund, S. (2023). Comparison Between RLHF and RLAIF in Fine-Tuning a Large Language Model School of Electrical Engineering and Computer Science (EECS). https://www.diva-portal.org/smash/get/diva2:1782683/FULLTEXT01.pdf

Lee, H., Phatale, S., Mansoor, H., Mesnard, T., Ferret, J., Lu, K., Bishop, C., Hall, E., Carbune, V., Rastogi, A., Prakash, S. (2024, julio 21). RLAIF vs. RLHF: Proceedings of the 41st International Conference on Machine Learning. Guide Proceedings. https://dl.acm.org/doi/10.5555/3692070.3693141

Luna Acuña, M. L., Peralta Roncal, L. E., Gaona Portal, M. del P., & Dávila Rojas, O. M. (2022). La retroalimentación reflexiva y logros de aprendizaje en educación básica: una revisión de la literatura. Ciencia Latina Revista Científica Multidisciplinar, 6(2), 3242-3261.

Nanobaly. (2024). Aprendizaje RLHF para LLM y otros modelos. Innovatiana.com. https://es.innovatiana.com/post/rlhf-our-detailed-guide

Núñez-Valdés, K., Gerson Núñez-Valdés, & Castillo-Paredes, A. (2024). Retroalimentación en el contexto educativo: Una revisión sistemática. Formación Universitaria, 17(2), 61–72. https://doi.org/10.4067/s0718-50062024000200061

sapien. (2024). RLAIF vs. RLHF: A Detailed Comparison of AI Training Methods. Sapien.io. https://www.sapien.io/blog/rlaif-vs-rlhf-understanding-the-differences

Sobrido Prieto, M., & Rumbo-Prieto, J. M. (2018). La revisión sistemática: pluralidad de enfoques y metodologías. Enfermería Clínica, 28(6), 387–393. https://doi.org/10.1016/j.enfcli.2018.08.008

Umáximo. (s.f.). Retroalimentación educativa: ¿Cómo transformar el aprendizaje escolar? Umaximo.com. Recuperado 7 marzo, 2025, de https://www.umaximo.com/post/retroalimentacion-educativa-como-transformar-el-aprendizaje-escolar

Vocerol. (2018). Automatización de la retroalimentación: ¿Cómo la IA puede mejorar la evaluación del desempeño en los sistemas de gestión del aprendizaje? Psicosmart.pro. https://psicosmart.pro/articulos/articulo-automatizacion-de-la-retroalimentacion-como-la-ia-puede-mejorar-la-evaluacion-del-desempeno-en-los-sistemas-de-gestion-del-aprendizaje-202980

What is a Large Language Model (LLM). (2023, junio 4). GeeksforGeeks. https://www.geeksforgeeks.org/large-language-model-llm/

Zhichao, W., Bin, B., Pentyala, S. K., Kiran, R., Sougata, C., Shubham, M., Zixu, Zhu, Xiang-Bo, M., Sitaram, A., Na, & Cheng. (2024). A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More. En arXiv [cs.CL]. http://arxiv.org/abs/2407.16216

Descargas

Publicado

2025-05-21

Cómo citar

Díaz-Rodríguez, E. (2025). RLHF y RLAIF, Revolución Silenciosa de la Retroalimentación Educativa. HETS Online Journal, 15(2), 33-48. https://doi.org/10.55420/2693.9193.v15.n2.333

Número

Sección

Articles