多模态AI
-
OpenAI推出Sora 2 AI视频生成器:支持音频合成与真人形象植入的突破性升级
人工智能领域的颠覆性创新再次由OpenAI引领,该公司最新发布的Sora 2视频生成模型标志着生成式AI技术迈入全新阶段。这款升级版工具不仅延续了前代产品在视频质量与连贯性方面的优…
-
DeepMind新研究揭示向量搜索中的隐藏瓶颈问题
谷歌旗下人工智能实验室DeepMind最新发表的一项研究揭示了当前向量搜索技术中存在的一个关键性能瓶颈,这一发现可能对从推荐系统到数据库管理的多个AI应用领域产生深远影响。这项发表…
-
Anthropic推出Claude Chrome扩展测试版:浏览器控制型AI的安全困境与商业博弈
当Anthropic在2025年8月宣布为Chrome浏览器推出Claude AI扩展的限量测试时,这场看似寻常的技术发布实则揭示了AI产业正在经历的深刻转型。这家以安全谨慎著称的…
-
Mistral发布首个开源AI音频模型Voxtral,开启多模态AI新纪元
法国人工智能初创公司Mistral AI于7月15日正式推出其首款开源音频处理模型Voxtral,标志着这家以大型语言模型闻名的公司正式进军多模态AI领域。这款基于Transfor…
-
OpenVision:全新开源视觉编码器,超越OpenAI CLIP与Google SigLIP
加利福尼亚大学圣克鲁兹分校(UCSC)近日宣布推出OpenVision,这是一个视觉编码器家族,旨在为AI领域提供一种全新的选择,以超越OpenAI四年前推出的CLIP和谷歌去年的…
-
OpenAI推出全新语音AI模型:gpt-4o-transcribe,让你的文本应用秒变语音交互神器
OpenAI,这家因ChatGPT而广为人知的AI公司,近日再次在语音AI领域迈出重要一步。公司宣布推出三款全新的语音模型——gpt-4o-transcribe、gpt-4o-mi…
-
Google的Gemini 2.0 Flash:原生多模态AI图像生成引领快速编辑与风格转换潮流
Google近期推出的Gemini 2.0 Flash模型,以其原生多模态AI图像生成能力,在AI界掀起了新一轮的创新风暴。这款模型不仅将文本与图像生成功能融为一体,还实现了快速的…