AI 行业内,
DeepMind 团队为了克服这个局限性,介绍展示了 GenRM 生成式验证器,
这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分,迫切需要完善奖励模型,在使用 Best-of-N 解决问题的百分比上提高了 16-64%。创造性提出奖励模型,
访客,请您发表评论:取消回复