
Machine Pro的心脏·沟通成员第15周---本周解释了AI机器人的重要事物值得享受的重要事物---1。rl for LLMS,法律是否开始接受教育法律?为什么LLM表现的下一个突破点称为增强研究量表? RL如何提高LLM功能?预训练在RL中是必不可少的。为什么简单的RL不能改善LLM的“智力”? RL缩放定律才刚刚开始。主要困难是什么?主流LLM最近如何通过研究加强来提高他们的决策能力? ... 2。拟人化的“视图”视图如何区分?什么是AI的“愿景”?如何快速改善AI的“愿景”?众所周知的是deepseek?kaplan仍然与规模法有关吗?人类和深度如何识别“ AGI加速时间表”? ...该新闻通讯的完整版本包含2个特殊主题解释 + 27本周的主要机器人赛问题,包括11个技术方面,四个国内方面和12个外国方面。 ang komunikasyon ng isyu na ito ay ay kabuuang 21,036 na mga salita,libreng pagsubok sa pagsubok sa 8%petsa:abril 11预训练的型号X型号X强化学习= Matalino? 1。最近,DeepSeek和Tsinghua University的研究人员发表了在认识阶段提高一般奖励模型(GRM)的可扩展性方面的技术作用。研究人员建议一种称为“自我限制批判调整”的程序,以使GRM能够通过一代原则和批评拒绝调整学习和在线加强的批评来优化奖励的生成。 [1-1] 2。在启动O1模型后,LLM量表范例的缩放从训练前阶段转变为训练后阶段,即理解阶段,并继续通过更大的兴奋性研究(计算训练期间的计算)和更多的思维时间(计算)来提高O1的性能。 ①也就是,O1首先开发在响应用户之前,长期的内部思维链,改进思维过程,尝试不同的技术并确定您的错误。 O1通过研究增强措施开辟了道路,以显着提高LLM的能力。同样,DeepSeek-R1系列模型进一步证实了LLM的LLM功能通过纯培训(没有管理的微调)。 3。LLM本身取决于“隔壁预测”机制,这与可能性模型相似。尽管它具有丰富的知识,但它缺乏预测结果的深入计划和长期结果,并且容易做出决策。对收养的研究起着辅助作用,它提供了“世界内部模型”(世界内部模型)的LLM,该LLM允许LLM模仿不同途径的潜在结果,评估优势和缺乏路径并选择更好的解决方案,从而实现更加系统的长期计划。组合LLM和RL的ATION是提高复杂问题解决能力的关键。 4。TsinghuaFork Academy的助理教授Wu Yi描述了LLM与研究强化是播客计划中的“乘法关系”之间的关系。尽管对强化的研究在决策能力方面表现良好,但不能提供理解。建立理解能力需要对职业前模型的希望,而强化研究则进一步优化了此基础上的决策能力。两者之间的关系可以描述为“繁殖关系”。如果建立在训练阶段的强烈理解,记忆和逻辑能力可以增强其潜力的研究,并最终实现完整的代理。 [1-2] 5。在《 LLMS研究:一项调查:墨尔本大学》,智安格大学和其他机构发布的论文综述中可以分为三个主要步骤:①第一个是训练模型培训。在微调之前,对估计的人类偏好进行了奖励模型(或奖励功能),并评估了各种LLM输出。 ②之后是基于偏好的偏好。每次更改都正确,大型语言模型将为给定的指示产生许多响应,并使用训练有素的奖励模型对每个响应进行评分; ③最后,通过优化优化的技术,该方法的方法是根据偏好的标记进行更新的,以改善响应的产生。将强化与大语言模型合并为基于不同的偏好分数而不是有限的SA预定答案进行调整。 RL缩放定律才刚刚开始。主要困难是什么? 1。尽管加固研究的培训在改善LLM perfor方面取得了成功曼斯。但是,仍然有足够的空间来改善强化研究算法,并且刚开始进行增强研究的规模定律。 2。所谓的“加强研究缩放定律”是指如何通过增加计算资源(例如在并行处理,GPU加速等),培训样本或模型量表来提高增强模型的性能。与传统的范式量表法律不同,使用更多的计算数据和能力来改善模型性能,法律强化定律的影响因素更为复杂,包括样本吞吐量,音量参数模型和训练环境中的复杂性。 3。目前,加强XI量表定律面临的一个主要问题是奖励。奖励模型是一个主要的增强模块,准确的奖励信号的发展很重要。奖励和连续性的奖励奖励已成为主要重点。