大语言模型

AI前沿

研究证实：主流大语言模型的思维链推理多为“装饰性”，AI先有答案再编过程

当我们看到ChatGPT、Claude等大语言模型给出条理清晰的分步推理过程时，往往会默认这是AI一步步推导答案的“思考轨迹”。但来自印度的一项最新研究却打破了这个认知：这些看似严…

王浩然
2026年3月29日
000
AI前沿

AI基准测试平台Arena：获头部AI企业投资，却称“无法被操控”的行业标尺

在AI大模型爆发式增长的当下，市场上的玩家越来越多，竞争也日趋白热化。面对琳琅满目的大模型产品，究竟谁才是行业最优？又该由谁来定义“最优”？在这样的行业背景下，曾经名为LM Are…

王浩然
2026年3月23日
000
AI前沿

从伯克利博士项目到百亿估值：Arena如何成为AI行业的“隐形裁判”

当AI模型如雨后春笋般涌现，行业竞争愈发白热化，一个尖锐的问题摆在所有人面前：谁来定义“最好的AI”？在这个玩家云集的赛道上，一个名为Arena的平台悄然崛起，从加州大学伯克利分校…

王浩然
2026年3月23日
000
AI前沿

五角大楼加速自研大模型，与Anthropic合作破裂后开启AI替代方案

2026年3月17日，据彭博社援引五角大楼首席数字与人工智能官卡梅伦·斯坦利的消息，在与AI初创公司Anthropic彻底分道扬镳后，美国国防部正积极推进自研大语言模型（LLM），…

王浩然
2026年3月22日
000
AI前沿

AI安全测评存重大漏洞：简单改写即可突破Gemini、Claude等主流大模型防线

近日，美国一项企业研究揭示了当前大语言模型（LLM）安全测评体系的致命缺陷：被评为“相对安全”的主流模型，包括谷歌Gemini 3 Pro和Anthropic Claude Son…

王浩然
2026年2月24日
000
AI前沿

AlphaGo之父筹10亿美金押注非大模型路径，AI超级智能赛道再掀变局

在大语言模型（LLM）占据人工智能行业绝对话语权的当下，一位AI界的传奇人物正试图开辟一条截然不同的道路。曾带领谷歌DeepMind团队打造出震惊世界的AlphaGo的强化学习先驱…

王浩然
2026年2月23日
000
AI前沿

AI的“人类权威偏好”：即便人类答案错误，仍会被LLM优先采信

当我们依赖大语言模型（LLM）提供信息、辅助决策时，是否想过这些AI系统的判断可能被“身份标签”左右？美国印第安纳大学伯明顿分校的一项新研究，揭开了当前主流LLMs一个值得警惕的内…

王浩然
2026年2月23日
000
AI前沿

企业AP自动化不止需要大语言模型：揭秘真正适配的技术架构

在AI工具遍地开花的当下，打开Product Hunt等平台，你总能看到大量宣称“用AI自动化发票处理”的应付账款（AP）自动化工具。Unite.AI的相关数据显示，78%的AI工…

王浩然
2026年2月17日
000
AI前沿

AI主导氛围编码效果下滑，研究揭示人机协作最优模式

当AI在协作中的角色从“执行者”转向“决策者”，会给创意编码工作带来怎样的改变？美国一项最新研究给出了明确答案：在以SVG图像复刻为场景的“氛围编码”（vibe coding）实验…

王浩然
2026年2月16日
000
AI前沿

HIPAA隐私防线失守：AI如何破解去标识化医疗数据的匿名性

当美国医院按照HIPAA（健康保险流通与责任法案）的要求，将患者姓名、邮编等18类明确标识信息从医疗记录中删除后，这些数据真的就安全了吗？纽约大学的最新研究给出了令人不安的答案：在…

王浩然
2026年2月14日
000