AIR 科研|LLM RL最强算法,PG官网
-字节跳动SIA-Lab联合发布
PG官网
(AIR)与字节跳动(ByteDance)联合实验室 SIA-Lab 开源了其最新研发的大规模 LLM 强化学习系统 —— Decoupled Clip and Dynamic sAmpling Policy Optimization(DAPO)。在纯 RL 端的比较下超越了 DeepSeed R1 模型所使用的 GRPO 算法,取得新的 SOTA 结果。 •作者:禹棋赢,张正,陈江捷,于鸿利,戴炜楠,宋宇轩,周浩,刘菁菁,马维英,张亚勤,严林,乔木,Yonghui Wu,王明轩等(...
2025/03/19