
2025年以来,人工智能(AI)技术在大语言模型和多模态领域持续突破,全球科技巨头密集推出新一代AI模型,不仅在理解与生成能力上实现飞跃,更在实用性与效率层面迈上新台阶,标志着AI正从通用大模型阶段,加速向多模态助手与智能体方向演进。
当地时间5月22日,美国Anthropic公司推出“克劳德4”系列的两款新模型——“奥珀斯4”(Opus 4)与“十四行诗4”(Sonnet 4),瞄准专业领域的编程、推理与智能体应用需求。其中Opus 4被定位为行业领先的编程模型,可高效完成复杂且长时程的任务;Sonnet 4则在3.7版本基础上完成显著升级,指令理解、逻辑推理与编程能力均得到强化。
仅两天后的5月20日,谷歌一口气推出多个“双子座2.5”系列大语言模型,整体性能与智能推理能力较前代版本大幅提升。同日,谷歌还发布了多款多模态模型:图像生成模型Imagen 4与视频生成模型Veo 3,具备从文本等多输入形式生成高质量视觉内容的能力;音乐生成模型Lyria 2则为音乐创作者提供了多模态创作工具。此外,AI电影制作工具Flow集成了前沿多模态技术,用户只需通过自然语言描述,就能生成高质量视觉作品。
除了多模态模型,谷歌在5月还发布了全新的进化式编程智能体AlphaEvolve,由谷歌大语言模型驱动,旨在实现通用算法的发现与优化。据谷歌官方博客介绍,AlphaEvolve不仅能发现单一函数,还能演化整个代码库,开发出复杂算法。在对超过50个数学难题的测试中,它在约75%的案例中重新发现最优解,甚至在20%的案例中提出了更优方案。谷歌团队认为,该智能体未来有望在材料科学、药物发现、可持续发展等领域发挥变革性作用。
更早的4月,美国OpenAI公司先后发布GPT-4.1系列模型,以及o3和o4 mini两款推理模型。据OpenAI官网介绍,GPT-4.1系列在编程与指令理解方面表现突出,长文本处理能力显著提升,同时具备更高的性价比。而o3和o4 mini则被OpenAI称为“迄今为止最智能的模型”:o3模型在编程、数学、科学、视觉感知等领域均实现突破,适合处理多维度复杂问题,尤其在图像、图表等视觉任务上表现亮眼,还具备严谨的分析能力与批判性思维,可作为可靠的“思维伙伴”;o4 mini则是一款经过优化的小型模型,在数学、编程与视觉任务上表现出色,适用于快速且成本效益高的推理场景。
国内AI企业也在加速布局,4月,字节跳动推出全新升级的“日日新SenseNova V6”大模型体系。据该公司官网介绍,这一大模型体系通过多模态长思维链训练、全局记忆、强化学习等技术突破,已形成领先的多模态推理能力,并突破了成本边界。
随着技术的快速发展,AI的能力边界不断拓展。正如谷歌旗下“深度思维”公司首席执行官德米斯·哈萨比斯所说,团队正在塑造一个更加个性化、主动、强大的AI,以此加快科学进步的步伐,开启一个充满新发现与成就的新时代。可以预见,这些不断迭代的AI模型,将为各行业的创新发展注入新的动力,推动人工智能技术向更广阔的应用场景延伸。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/quan-qiu-ai-mo-xing-mi-ji-shang-xin-cong-tong-yong-da-mo