这个团队做了OpenAI没Open的技术,让对齐大模型超简单|算法|调度器|优化器|软件库

这个团队做了OpenAI没Open的技术,让对齐大模型超简单|算法|调度器|优化器|软件库

机器之心报道编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。但是,随着模型越来越大,RLHF 通常需要维持多个模型以及越来越复杂的学习流程,这又会导致内存和计算资源需求增长。举个例子,近端策略优化(PPO,这是 RLHF 常用的一种算法)需要在训练过程中维持四个模型。由此,当语言模型的参数规模超过 700 亿时,为了训练和协调多个...

【更多...】