新闻资讯
你的位置:开云(中国)Kaiyun·体育官方网站 登录入口 > 新闻资讯 > 开云体育反念念器对这些轨迹进行评析-开云(中国)Kaiyun·体育官方网站 登录入口
开云体育反念念器对这些轨迹进行评析-开云(中国)Kaiyun·体育官方网站 登录入口

发布日期:2025-11-08 17:59    点击次数:96

时令 发自 凹非寺量子位 | 公众号 QbitAI开云体育

是时候为传统微调献上挽歌了。

一项全新接洽,刚刚又给微调致命一击。

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的接洽东说念主员,在新论文中诠释:

依靠高下文工程,无需诊治任何权重,模子也能不断变聪慧。

他们提议的要领名为智能体高下文工程ACE。

ACE不依赖模子从头磨练,而是让高下文自主进化,通过反复生成、反念念并剪辑我方的指示,直至成为一个自我完善的系统。

在智能体和特定畛域的基准测试中,ACE能同期优化离线高下文(如system prompt)和在线高下文(如agent memory),并厚实优于强力基线模子。

底下具体来看。

ACE框架

当前许多AI哄骗(比如自动处答理务数据的器具、能调用APP的智能助手)齐靠 “高下文适配” 来升迁才智。

直快来说,即是不给模子改底层参数,而是在输入里加指示、政策或凭据,但老要领有两个大问题:

直快偏置

为了让输入简陋,把关键细节丢了。比如只说 “处答理务数据”,却没说 “要按XBRL样式查对数值”,导致模子犯错。

高下文崩溃

反复修改输入时,模子会把之前积贮的有用信息越改越短、越改越没用。比如蓝本有1.8万个token的实用政策,准确率为66.7,改一次就剩122个token,后果却下跌到57.1。

ACE即是为了搞定这两个问题来的,与将常识压缩为简陋摘要或静态指示的要领不同,它将高下文视为不断演化的操作手册,约略随时分不断累积、优化并组织政策。

基于Dynamic Cheatsheet的智能体设想,ACE把模子的 “高下文优化” 拆因素工明确的三个扮装。

生成器(Generator):认真生成推理轨迹;

反念念器(Reflector):认真从到手和无理中提真金不怕火具体看法;

整理器(Curator):认真将这些看法整合到结构化的高下文更新中。

如上图所示,使命进程最初由生成器针对新查询生成推理轨迹,这些轨迹既能呈现存效政策,也会暴露常见无理。

随后,反念念器对这些轨迹进行评析,从中提真金不怕火出资格教学,并可选拔通过多轮迭代加以优化。

接着,整理器将这些资格合成为直快的增量条款,再经由轻量级的非LLM逻辑,以笃定性的方式将其合并至现存高下文中。

由于更新实质被逐项认识并局部化,多个增量得以并行合并,从而达成大畛域的批量妥当。

此外,ACE还撑合手多轮次妥当机制,即对团结组查询进行反复学习,迟缓强化高下文质料。

ACE在两大场景中全面卓绝基线

推行放胆标明,在智能体和财务分析两大场景中,ACE厚实优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化)、Dynamic Cheatsheet(动态备忘单)等要领。

在智能体测试中,接洽团队摄取的是AppWorld,它是一套自主智能体任务聚集,涵盖API通晓、代码生成和环境交互。

放胆骄贵,ReAct+ACE比拟ReAct+ICL和ReAct+GEPA辞别向上12.3%和11.9%,上风显赫。这标明,与固定的演示示例或单一优化指示指示比拟,结构化、可演进且细致化的高下文约略更有用地促进智能体学习。

这一上风在在线场景中雷同得以延续:ACE平均以7.6%的性能升迁向上于Dynamic Cheatsheet等现存自妥当要领。

在财务分析中,接洽者遴选FiNER和Formula来测评模子的金融推理才智,其任务依赖可推广营业陈诉言语(XBRL)。

FiNER要求对XBRL财务文档中的token进行标注,将其归类为139种细粒度实体类型之一,这是在受监管畛域进行金融信息抽取的关键要领。

Formula则侧重于从结构化XBRL陈诉中索要数值,并通过意象打算答谢金融查询,即进行数值推理任务。

在离线环境下,当模子获取磨练聚首的信得过谜底四肢输入时,ACE以平均10.9%的上风明白卓绝了ICL、MIPROv2和GEPA。

此外,ACE在镌汰自适结伙本(如尝试次数和token输入/生成的用度)与延长方面展现出显赫上风。

具体而言,在AppWorld的离线自妥当任务中,与GEPA比拟,ACE将自妥当延长镌汰了82.3%,并将尝试次数减少了75.1%。

在FiNER的在线自妥当场景中,与DC比拟,ACE达成了91.5%的自妥当延长镌汰,并在token输入与生成的干系用度上从简了83.6%。

华东说念主出品

这项接洽的两位一作齐是华东说念主。

Qizheng Zhang,斯坦福大学意象打算机科学系四年事博士生。此前在芝加哥大学获取了数学、意象打算机科学和统计学三个专科的学士学位。

本科时间,他就与Junchen Jiang和Ravi Netravali两位西席互助开展意象打算机采集接洽,专注于面向视频流与分析的采集系统设想。

此外,他还在好意思国阿贡国度推行室数学与意象打算机科学部(MCS)和微软接洽院实习过。

Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。

20岁时,他就成为了一家AI音乐生成公司DeepMusic的连接独创东说念主,到手获取来自中国顶级企业的1000万好意思元投资,并与多位中国流行歌手(如周杰伦、李健)建造互助。

随后,他以哄骗科学家实习生的身份加入微软,并于2021年景为Sambanova Systems接洽工程师开云体育,随后晋升为技能垄断兼司理,主要认真模子后磨练与智能体AI干系研发使命。