大型语言模型
-
阿里巴巴发布开源Qwen3模型,性能超越OpenAI O1和DeepSeek R1
中国电子商务和互联网巨头阿里巴巴的Qwen团队正式推出了一系列名为Qwen3的开源AI大型语言多模态模型。这些模型在开源模型中处于领先地位,并接近OpenAI和Google等公司的…
-
Writer发布Palmyra X5,以75%的更低成本实现接近GPT-4的性能
Writer,这家估值19亿美元的企业级生成式AI公司,近日发布了Palmyra X5,一款全新的大型语言模型(LLM)。该模型拥有100万个标记的广阔上下文窗口,旨在加速自主AI…
-
AI生成代码准确性提升:研究人员采用顺序蒙特卡洛方法
随着人工智能(AI)技术的飞速发展,AI辅助编码正逐渐成为软件开发领域的一大热门趋势。然而,尽管AI编码助手能够显著提高编码效率,但开发者们在使用这些工具时也遇到了一些问题。为了提…
-
SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章
在AI技术日新月异的今天,斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning(SWiRL)技术,旨在为大型语言模型…
-
微软研究显示:AI推理并非标记越多越好,更多标记可能带来更多问题
大型语言模型推理中的标记数量问题 大型语言模型(LLMs)正日益展现出复杂推理的能力,这得益于“推理时间缩放”技术,即在推理过程中分配更多的计算资源来生成答案。然而,微软研究的一…
-
并非越大越好:探讨数百万令牌大型语言模型的商业案例
在人工智能领域,大型语言模型(LLMs)正朝着数百万令牌的容量迈进,这一趋势引发了AI界的热烈讨论。模型如MiniMax-Text-01拥有400万令牌的容量,而Gemini 1.…
-
新兴开源AI公司Deep Cogito发布首批模型,迅速登顶排行榜
2025年4月8日,位于旧金山的AI研究初创公司Deep Cogito正式亮相,推出了其首批产品——Cogito v1系列。这是一系列经过精细调优的开源大型语言模型(LLMs),基…
-
Gensparks的Super Agent:通用人工智能代理竞赛中的新星
在人工智能领域,通用型代理的竞争格局正日益激烈且充满野心。近日,总部位于帕洛阿尔托的初创公司Genspark推出了其名为Super Agent的快速自主系统。该系统旨在跨多个领域处…
-
思科警告:微调使大型语言模型成为威胁向量
随着人工智能技术的飞速发展,大型语言模型(LLMs)在金融、医疗、法律等众多领域展现出了巨大的潜力。然而,思科公司最近发布的一份报告却揭示了这些模型在微调过程中可能带来的巨大安全风…
-
大型语言模型中的灾难性过度训练:研究人员的警告
在人工智能领域,大型语言模型(LLM)正逐渐成为研究和应用的核心。然而,随着这些模型规模的不断扩大和能力的不断增强,一个潜在的问题也逐渐浮出水面——灾难性过度训练。近日,研究人员纷…