强化学习
-
阿里巴巴 AgentEvolver 框架:通过自动生成合成任务,使模型工具使用性能提升约 30%
阿里巴巴通义实验室(Tongyi Lab)的研究人员成功研发出一款用于自进化智能体的全新框架 ——AgentEvolver。该框架借助大语言模型的知识储备与推理能力,让智能体能够通…
-
Deductive AI 自动化软件调试,为 DoorDash 节省 1000 小时工程工时
新兴初创企业 Deductive AI 正式走出隐匿模式,推出基于强化学习技术的 “AI SRE 智能体” 解决方案,专注于自动化生产环境软件故障诊断与修复辅助。该公司宣布完成 7…
-
Meta 推出 SPICE 框架:让 AI 系统自主习得推理能力,突破传统自博弈局限
Meta 旗下 FAIR 实验室与新加坡国立大学合作研发的新型强化学习框架 ——Self-Play In Corpus Environments(SPICE)正式亮相。该框架通过创…
-
RL 即服务:开启自主化新浪潮的关键力量
强化学习(Reinforcement Learning,简称 RL)长期以来都是人工智能领域中极具潜力却未被充分开发的领域。从击败围棋世界冠军、攻克《星际争霸》的算法,到优化复杂物…
-
编程平台 Cursor 推出首款自研大语言模型 Composer,承诺四倍速度提升
来自初创公司 Anysphere 的 Vibe 编程工具 Cursor,在其 Cursor 2.0 平台更新中,正式推出了首款自研的专有编程大语言模型(LLM)——Composer…
-
代理式AI如何将自动化提升为企业战略核心:下一代商业智能的范式转移
在数字化转型进入深水区的当下,企业自动化正经历从规则驱动到认知驱动的质变。Unite.AI最新发布的深度分析报告揭示,代理式AI(Agentic AI)通过其自主决策、持续学习和战…
-
人工智能创新的迷思:技术突破还是旧酒新瓶?
在人工智能被普遍视为当代最具变革性技术的今天,一个根本性问题正引发学界激烈辩论:我们究竟是在见证真正的认知革命,还是仅仅目睹了计算能力加持下的概念轮回?这场讨论远超出技术范畴,直接…
-
Prophet Security获3000万美元融资 用AI自主防御系统取代传统安全分析师
网络安全领域正迎来革命性变革。专注于AI驱动安全解决方案的初创公司Prophet Security近日宣布完成3000万美元B轮融资,其核心产品Autonomous Defende…
-
阿里巴巴的“Qwen团队”再次取得突破
继前几天免费开源发布全球性能最强的非推理大语言模型Qwen3-235B-A22B-2507后,该研究团队又推出了一款重磅模型——专注于软件开发辅助的开源大语言模型Qwen3-Cod…
-
麻省理工学院推出新框架:让AI模型实现自我教学
麻省理工学院(MIT)的研究人员近日开发了一种名为“自我适应语言模型”(SEAL)的框架,该框架能够使大型语言模型(LLM)通过不断更新其内部参数,实现持续学习和适应。SEAL框架…