多模态AI

谷歌I/O 2026放大招：Gemini 3.5 Flash登场，性能追平旗舰、速度超GPT-5.5四倍

2026年5月20日凌晨，谷歌I/O全球开发者大会正式拉开帷幕，这场科技盛宴最引人瞩目的焦点，当属谷歌全新发布的Gemini 3.5 Flash大语言模型。作为Gemini家族的新…

王浩然
AI前沿 2026年5月21日
000
AI前沿

Google Gemini集成Lyria 3：用文字、图片甚至视频生成AI音乐

在AI内容生成的赛道上，Google Gemini又迈出了新的一步。2026年2月18日，Google Gemini官方宣布推出由DeepMind开发的Lyria 3音乐生成模型，…

王浩然
2026年2月20日
000
AI前沿

盛数科技完成超8600万美元A+轮融资，加速多模态AI商业化落地

近日，多模态AI领域的先锋企业盛数科技宣布完成规模超6亿元人民币（约合8600万美元）的A+轮融资，这一里程碑式的融资将为其多模态大模型在数字与物理世界的规模化应用注入强劲动力。本…

王浩然
2026年2月8日
000
AI前沿

OpenAI推出Sora 2 AI视频生成器：支持音频合成与真人形象植入的突破性升级‌

人工智能领域的颠覆性创新再次由OpenAI引领，该公司最新发布的Sora 2视频生成模型标志着生成式AI技术迈入全新阶段。这款升级版工具不仅延续了前代产品在视频质量与连贯性方面的优…

王浩然
2025年10月4日
000
AI前沿

DeepMind新研究揭示向量搜索中的隐藏瓶颈问题‌

谷歌旗下人工智能实验室DeepMind最新发表的一项研究揭示了当前向量搜索技术中存在的一个关键性能瓶颈，这一发现可能对从推荐系统到数据库管理的多个AI应用领域产生深远影响。这项发表…

王浩然
2025年9月15日
000
AI前沿

Anthropic推出Claude Chrome扩展测试版：浏览器控制型AI的安全困境与商业博弈‌

当Anthropic在2025年8月宣布为Chrome浏览器推出Claude AI扩展的限量测试时，这场看似寻常的技术发布实则揭示了AI产业正在经历的深刻转型。这家以安全谨慎著称的…

王浩然
2025年8月28日
000
AI前沿

Mistral发布首个开源AI音频模型Voxtral，开启多模态AI新纪元‌

法国人工智能初创公司Mistral AI于7月15日正式推出其首款开源音频处理模型Voxtral，标志着这家以大型语言模型闻名的公司正式进军多模态AI领域。这款基于Transfor…

王浩然
2025年7月17日
000
AI前沿

OpenVision：全新开源视觉编码器，超越OpenAI CLIP与Google SigLIP

加利福尼亚大学圣克鲁兹分校（UCSC）近日宣布推出OpenVision，这是一个视觉编码器家族，旨在为AI领域提供一种全新的选择，以超越OpenAI四年前推出的CLIP和谷歌去年的…

王浩然
2025年5月13日
000
AI前沿

OpenAI推出全新语音AI模型：gpt-4o-transcribe，让你的文本应用秒变语音交互神器

OpenAI，这家因ChatGPT而广为人知的AI公司，近日再次在语音AI领域迈出重要一步。公司宣布推出三款全新的语音模型——gpt-4o-transcribe、gpt-4o-mi…

王浩然
2025年3月24日
000
AI前沿

Google的Gemini 2.0 Flash：原生多模态AI图像生成引领快速编辑与风格转换潮流

Google近期推出的Gemini 2.0 Flash模型，以其原生多模态AI图像生成能力，在AI界掀起了新一轮的创新风暴。这款模型不仅将文本与图像生成功能融为一体，还实现了快速的…

王浩然
2025年3月17日
000