OpenAI最新研究 减轻ChatGPT幻觉 要借助一步一步 过程监督
近年来,在进行复杂、多步骤的推理方面,大型语言模型有了重大进展。然而,即使是最先进的模型仍然会产生逻辑错误,这通常被称为幻觉(hallucinations)。减少幻觉是构建对其的通用人工智能(AGI)的关键一步。 据介绍,除了得到高于结果监督的性能表现外,过程监督或许也有助于解决其难题(它直接训练模型产生一个被人类认可的思维链)。 相对于结果监督,过程监督在对齐方面有几个优势。过程监督直接奖励按照对齐的思维链进行推理的模型,因为每个步骤都接受了精确的监督。过程监督更有可能产生可解释的推理,因为它鼓励模型遵循经过人类批准的过程。相比之下,结果监督可能会奖励一个不对齐的过程,并且一般更难审查。 具体到实际问题,OpenAI 的研究人员使用 MATH 测试集中的问题来评估过程监督和结果监督奖励模型。对于每个问题,他们生成了多个解决方案,然后选择每个奖励计算模型得出的排名相关系数最高的解决方案。 目前,OpenAI 的研究人员尚不清楚这些结果能否应用在数学领域之外,但认为未来探索过程监督在其他领域中的影响的研究将非常重要。openai是一个开源的计算机视觉平台,旨在通过深度学习技术来改善人类生活的方方面面。 (编辑:银川站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |