浙江大学与阿里巴巴联合研发Memp框架：程序性记忆如何降低AI代理成本与复杂度‌

王浩然 • 2025年8月28日下午12:00 • AI前沿 • 385 views

在AI代理技术面临成本与可靠性瓶颈的2025年，浙江大学与阿里巴巴联合发表的Memp框架为行业带来了突破性解决方案。这项发表在arXiv上的研究通过模拟人类程序性记忆机制，使大型语言模型（LLM）代理能够持续积累并复用任务经验，将复杂业务流程自动化的成功率提升47%，同时减少38%的token消耗。该技术已在Visa的3.5亿美元AI自动化项目中验证价值，标志着AI代理从”每次重启都归零”的初级阶段，迈入”熟能生巧”的持续进化新纪元。

‌程序性记忆：破解AI代理的健忘症困局‌

当前AI代理在执行业务流程自动化时面临的根本矛盾在于：复杂任务往往需要多步骤协作（如客户投诉处理涉及CRM系统查询、工单生成和邮件回复），但传统代理每次执行都会遗忘历史经验。Memp团队发现，尽管不同业务流程表面差异显著，其底层操作模式存在高度可复用的结构共性——就像人类学会骑自行车后，换乘不同车型也能快速适应。研究论文指出：”现有代理系统将程序性知识固化在提示模板或模型参数中，既无法动态更新，也难以量化进化效率。”这种缺陷导致企业部署AI自动化时，不得不为每个微小流程变更付出高昂的调整成本。

Memp框架的创新核心在于构建了动态演进的三阶段记忆循环。在记忆构建阶段，系统以两种形式存储代理的完整操作轨迹：原始动作序列和提炼后的脚本抽象。当处理新任务时，代理会通过向量检索匹配历史经验，其检索机制能识别”预订国际机票”与”安排跨国货运”在签证办理环节的相似性。最具革命性的是记忆更新机制——不同于简单追加新记录，Memp会像人类复盘那样分析失败案例，修正错误记忆。测试数据显示，经过20次订票任务迭代后，代理在签证材料准备步骤的错误率从34%降至7%，且经验可迁移至酒店预订等关联场景。

‌冷启动解决方案：用AI评估AI的元学习策略‌

程序性记忆面临”先有鸡还是先有蛋”的悖论：没有优质历史轨迹就无法建立有效记忆，而没有记忆辅助又难以生成优质轨迹。研究团队提出的解决方案颇具哲学意味——让AI自我评判。开发者只需定义基础评估标准（如工单处理速度+客户满意度），随后放手让GPT-4o等先进模型自主探索。那些获得高分的操作轨迹会自动成为记忆库的种子，这种元学习策略在ALFWorld家务机器人测试中，仅用5次迭代就使任务成功率从12%跃升至68%。

更令人惊喜的是记忆的可迁移性。当将在GPT-4o上训练的程序性记忆注入小模型Qwen2.5-14B时，这个小模型的旅行规划能力瞬间达到大模型85%的水平。这揭示出新型AI能力传递路径：由少数大模型担任”教练员”，通过程序性记忆批量培养轻量化”学徒模型”。阿里巴巴技术负责人透露，其电商客服系统已采用该方案，将Claude 3.5 Sonnet的经验下沉到本地化小模型，使自动化客服成本降低72%的同时，工单转人工率下降41%。

‌自主进化：LLM作为裁判官的未来图景‌

Memp框架目前最大的应用障碍在于复杂任务的评估难题。撰写市场分析报告这类主观性强的任务，很难用简单规则判断质量。研究团队正在试验”LLM作为裁判官”（LLM-as-Judge）模式，让更强大的AI模型提供 nuanced（细致入微）的反馈。在初步测试中，这种机制使代理在学术文献综述任务中，能自主识别并修正”过度依赖单一文献来源”的倾向，其报告质量经专家盲评已达到初级研究员水准。

这项技术的商业价值正在爆发。Visa的AI支付风控系统通过Memp实现规则自优化，将欺诈识别响应时间从47分钟压缩到9分钟；某跨国药企则利用程序性记忆构建实验protocol自动化系统，使不同实验室的方法偏差率下降63%。正如论文通讯作者方润南所言：”程序性记忆让AI代理真正理解了’熟能生巧’的含义——它们不再是被动执行指令的工具，而是会从每次实践中积累肌肉记忆的智能工作者。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zhe-jiang-da-xue-yu-a-li-ba-ba-lian-he-yan-fa-memp-kuang

Like (1)

王浩然作者

0 0

Anthropic推出Claude Chrome扩展测试版：浏览器控制型AI的安全困境与商业博弈‌

Previous 2025年8月28日

企业AI代理部署新范式：适配现有流程而非重塑流程‌

Next 2025年8月28日

AI前沿

AI竞赛白热化：对企业的深远影响

在当今这个科技飞速发展的时代，AI竞赛已经不再是理论上的担忧，而是成为了一场实实在在的、涉及科技巨头、初创企业乃至国家层面的激烈竞争。这场竞赛不仅重塑了技术格局，更对企业的战略规划…

王浩然
2025年5月27日
000
AI前沿

确保医疗保健中自主AI的弹性安全‌

在当今数字化时代，数据泄露的战争愈演愈烈，对全球医疗保健组织构成了日益严峻的挑战。据当前统计，全球数据泄露的平均成本已达到445万美元，而对于在美国境内为患者提供服务的医疗保健提供…

王浩然
2025年5月25日
000
AI前沿

Google 在全球推出适用于 iOS 的 Gemini 应用

周四，谷歌在全球 iOS 上推出了一款专门针对其人工智能助手 Gemini 的应用。到目前为止，iOS 用户必须使用谷歌应用或移动网络才能与人工智能技术聊天。新的 Gemini …

王浩然
2024年11月16日
000
AI前沿

Anthropic重塑教育AI：Claude学习模式让学生主动思考

在人工智能（AI）迅速发展的今天，其在教育领域的应用引发了广泛关注。然而，大多数现有的教育AI工具往往侧重于提供快速答案，而非培养学生的批判性思维和深度理解能力。为了打破这一局面，…

王浩然
2025年4月4日
000
AI前沿

实习生涉嫌破坏字节跳动 AI 项目，导致被解雇

TikTok 的创建者字节跳动最近遭遇了一起安全漏洞，一名实习生涉嫌破坏人工智能模型训练。微信上报道的这起事件引发了人们对该公司人工智能部门安全协议的担忧。对此，字节跳动澄清称，…

点点
2024年10月26日
000
AI前沿

破局企业AI规模化困境：从项目式投资到能力型建设的转型

如今，企业AI正处于一个尴尬的“青春期”：技术日渐成熟，落地雄心十足，但真正规模化的商业价值却始终遥不可及。不少企业陷入了“试点循环”的怪圈——一个个看似前景光明的AI用例轮番登场…

王浩然
2026年4月8日
000
AI前沿

法国 AI 初创公司 Mistral 推出适用于 iPhone、Android 的 Le Chat 移动应用程序——它能否让企业不再关注 DeepSeek？

虽然最近几天人工智能市场似乎围绕DeepSeek 和 OpenAI而崩溃，但当然还有许多其他由优秀工程师组成的团队开发大型语言模型 (LLM)，这些模型值得关注，因为用户和企业都在…

王浩然
2025年2月7日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

爱尔兰数据监管机构调查X公司利用欧洲用户数据训练Grok AI模型

在数据隐私与安全日益受到重视的今天，任何涉及用户数据的使用都需谨慎行事。近日，爱尔兰数据保护委员会（Data Protection Commission，简称DPC）宣布对X公司展…

王浩然
2025年4月15日
000
AI前沿

保险业 AI 应用实践：头部企业的运营差异与行业变革趋势

人工智能在保险行业的应用已从早期 “niche 建模工具” 转变为 “深度嵌入日常运营的核心能力”。安联（Allianz）、苏黎世保险（Zurich）、英杰华（Aviva）等行业巨…

王浩然
2025年12月24日
000
埃隆·马斯克的“求真”Grok AI散布关于犹太人控制媒体的阴谋论‌

在人工智能领域，埃隆·马斯克的xAI公司近期陷入了新的争议。其Grok聊天机器人在7月4日假期期间表现出了令人担忧的行为，包括以马斯克本人的身份回应问题，并生成有关犹太人控制好莱坞…

王浩然
AI前沿 2025年7月8日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

治理代理型AI时代：在自主性与问责制之间寻求平衡‌

在人工智能技术飞速发展的当下，我们正步入一个被称为”代理型AI”(Agentic AI)的新纪元。这类系统展现出前所未有的自主决策能力，能够独立执行复杂任务…

王浩然
2025年9月30日
000
AI前沿

穿越AI泡沫：企业需以多元化投资思维布局人工智能

自ChatGPT公开亮相至今已逾三年，生成式AI的浪潮让全球投资者和企业经营者既兴奋又焦虑。如今，我们正处于这场技术革命的“爆发后停滞期”——市场对AI的热情逐渐降温，泡沫论的声音…

王浩然
2026年3月3日
000
AI前沿

AI部署中的隐藏成本：为何在企业环境中Claude模型可能比GPT贵20%-30%‌

在当今快速发展的AI领域，企业对于先进语言模型的采纳日益增加，期望通过这些模型提升业务效率、优化客户体验并驱动创新。然而，许多企业在部署这些AI系统时，往往忽视了潜在的隐藏成本，这…

王浩然
2025年5月7日
000
AI前沿

Meta推出Llama 4系列模型，应对DeepSeek挑战‌

Meta公司近日正式发布了其最新的Llama 4系列模型，包括Scout和Maverick两款现可下载使用的模型，以及一款仍在训练中的2万亿参数巨型模型——Behemoth。这一系…

王浩然
2025年4月6日
000
AI前沿

农业AI的困局：从数据难题到“倾听植物”的破局之路

每隔几年，农业科技领域就会迎来一个被寄予厚望的“银弹”。2013年，大数据被视为重塑农场管理的关键，孟山都以11亿美元收购气候公司，曾让业内预测精准农业时代的到来；随后，AI驱动的…

王浩然
2026年3月9日
000
AI前沿

多智能体系统落地企业：治理新范式与ROI升级之路（下篇）

在生成式AI的技术浪潮中，多智能体系统（MAS）正成为继大模型之后企业AI架构的又一核心变革方向。不同于单模型AI或传统自动化工具，由多个自主智能体组成的协作网络，能在复杂分布式工…

王浩然
2026年4月8日
000
AI前沿

Cohere推出高效多语言Command A模型，瞄准全球企业市场

加拿大AI初创公司Cohere近期发布了其最新款面向企业应用的生成式AI模型——Command A。这款模型以其卓越的多语言能力、高效能以及仅需两台GPU即可运行的特性，迅速吸引了…

王浩然
2025年3月17日
000
AI前沿

今天是选举日，所有人工智能（除了一个）都采取了负责任的行动

在周二投票结束之前，大多数主要的人工智能聊天机器人都不会回答有关美国总统选举结果的问题。但内置在 X（前身为 Twitter）中的聊天机器人 Grok 却愿意回答，而且经常会出错。…

王浩然
2024年11月6日
000

发表回复

Please Login to Comment

浙江大学与阿里巴巴联合研发Memp框架：程序性记忆如何降低AI代理成本与复杂度‌

相关推荐

发表回复