AI文摘

blog-thum
拆解大语言模型RLHF中的PPO算法

©作者 陶然单位 字节跳动研究方向 NLP、大语言模型为什么大多数介绍大语言模型RLHF的文章,一讲到PPO算法的细节就戛然而止了呢?要么直接略过,要么就只扔出一个PPO的链接

read more