大语言模型
-
AI基准测试平台Arena:获头部AI企业投资,却称“无法被操控”的行业标尺
在AI大模型爆发式增长的当下,市场上的玩家越来越多,竞争也日趋白热化。面对琳琅满目的大模型产品,究竟谁才是行业最优?又该由谁来定义“最优”?在这样的行业背景下,曾经名为LM Are…
-
从伯克利博士项目到百亿估值:Arena如何成为AI行业的“隐形裁判”
当AI模型如雨后春笋般涌现,行业竞争愈发白热化,一个尖锐的问题摆在所有人面前:谁来定义“最好的AI”?在这个玩家云集的赛道上,一个名为Arena的平台悄然崛起,从加州大学伯克利分校…
-
五角大楼加速自研大模型,与Anthropic合作破裂后开启AI替代方案
2026年3月17日,据彭博社援引五角大楼首席数字与人工智能官卡梅伦·斯坦利的消息,在与AI初创公司Anthropic彻底分道扬镳后,美国国防部正积极推进自研大语言模型(LLM),…
-
AI安全测评存重大漏洞:简单改写即可突破Gemini、Claude等主流大模型防线
近日,美国一项企业研究揭示了当前大语言模型(LLM)安全测评体系的致命缺陷:被评为“相对安全”的主流模型,包括谷歌Gemini 3 Pro和Anthropic Claude Son…
-
AlphaGo之父筹10亿美金押注非大模型路径,AI超级智能赛道再掀变局
在大语言模型(LLM)占据人工智能行业绝对话语权的当下,一位AI界的传奇人物正试图开辟一条截然不同的道路。曾带领谷歌DeepMind团队打造出震惊世界的AlphaGo的强化学习先驱…
-
AI的“人类权威偏好”:即便人类答案错误,仍会被LLM优先采信
当我们依赖大语言模型(LLM)提供信息、辅助决策时,是否想过这些AI系统的判断可能被“身份标签”左右?美国印第安纳大学伯明顿分校的一项新研究,揭开了当前主流LLMs一个值得警惕的内…
-
企业AP自动化不止需要大语言模型:揭秘真正适配的技术架构
在AI工具遍地开花的当下,打开Product Hunt等平台,你总能看到大量宣称“用AI自动化发票处理”的应付账款(AP)自动化工具。Unite.AI的相关数据显示,78%的AI工…
-
AI主导氛围编码效果下滑,研究揭示人机协作最优模式
当AI在协作中的角色从“执行者”转向“决策者”,会给创意编码工作带来怎样的改变?美国一项最新研究给出了明确答案:在以SVG图像复刻为场景的“氛围编码”(vibe coding)实验…
-
HIPAA隐私防线失守:AI如何破解去标识化医疗数据的匿名性
当美国医院按照HIPAA(健康保险流通与责任法案)的要求,将患者姓名、邮编等18类明确标识信息从医疗记录中删除后,这些数据真的就安全了吗?纽约大学的最新研究给出了令人不安的答案:在…
-
营销界不存在“最佳大语言模型”?背后的真相与破局之道
每当一款新的大语言模型(LLM)发布,市场总会被相似的宣传话术包围:更大的上下文窗口、更强的推理能力、更优的基准测试表现。而嗅觉敏锐的营销从业者,很快会陷入一种熟悉的焦虑:自己正在…