多模态推理
-
阿里发布 Qwen3-VL 技术报告,攻克两小时长视频分析难题,开源多模态能力引领行业突破
阿里巴巴通义千问 Qwen 团队于 11 月 26 日发布 Qwen3-VL 技术报告,详细披露了这款 9 月开源的视觉 – 语言模型的核心能力与技术细节。该模型凭借 …
-
AI 更倾向于 “读文字” 而非 “看视频”:视觉语言模型的文本依赖现象
即便一些 AI 模型专为处理视频任务设计,要让它们真正分析视频内容并发表评论仍异常困难,相比之下,它们对文字内容的处理意愿和能力要突出得多。 日常生活中,若你尝试向 ChatGPT…
-
微软支持的Mistral AI推出欧洲AI云,意在挑战AWS与Azure
在人工智能领域,一场新的竞争格局正在悄然形成。近日,备受瞩目的法国人工智能初创公司Mistral AI宣布了一项重大战略举措——推出名为Mistral Compute的欧洲AI云平…
-
Google的Gemini 2.5 Pro:企业AI领域的智慧新星
在AI技术日新月异的今天,各大科技巨头纷纷推出自己的先进模型,以争夺市场的主导地位。近日,Google悄然发布了Gemini 2.5 Pro,这一模型虽然未能在发布时引起轰动,但其…
-
超越基准:Gemini 2.5 Pro或成最强推理模型
在人工智能领域,新模型的推出总是伴随着各种期待与争议。近期,谷歌悄然发布了其最新的旗舰语言模型——Gemini 2.5 Pro。与业界其他AI实验室喜欢将新模型冠以“世界最强”不同…
-
Google发布开源Gemma 3模型:128K上下文窗口引领新潮流
在人工智能领域,大型语言模型(LLMs)一直以其强大的语言理解和生成能力吸引着广泛关注。然而,随着对能源效率和成本效益的关注日益增加,小型语言模型(SLMs)逐渐崭露头角,成为替代…