Meta 重返开源 AI 领域:推出原生支持 1600 + 语言的 Omnilingual ASR 模型

Meta 重返开源 AI 领域:推出原生支持 1600 + 语言的 Omnilingual ASR 模型

2025 年 11 月 10 日,Meta 正式发布全新多语言自动语音识别(ASR)系统 Omnilingual ASR,以 “超广语言覆盖” 与 “高度可扩展” 为核心亮点,原生支持 1600 多种语言的语音转文本功能,远超 OpenAI 开源模型 Whisper(仅支持 99 种语言)。更值得关注的是,该系统借助 “零样本上下文学习” 特性,开发者只需在推理时提供少量新语言的音频 – 文本配对示例,无需重新训练即可实现转录,理论上可将语言覆盖范围扩展至 5400 多种(涵盖几乎所有有已知文字体系的口语语言)。此次发布标志着 Meta 在经历 Llama 4 模型市场反响不佳后,重返其传统优势的多语言 AI 领域,通过真正无限制的开源策略(采用 Apache 2.0 许可证),重新确立在语言技术领域的工程可信度,同时为全球多元语言社区的数字化接入提供关键工具。

从技术架构来看,Omnilingual ASR 构建了一套多模型协同的完整体系,训练数据规模与模型设计均针对 “低资源语言” 场景优化。该系统基于 430 万小时来自 1600 多种语言的音频数据训练,包含四大核心模型家族:用于自监督语音表示学习的 wav2vec 2.0 模型(参数规模 3 亿 – 70 亿)、支持高效有监督转录的 CTC-based ASR 模型、融合语音编码器与 Transformer 文本解码器的 LLM-ASR 模型(实现当前最优转录性能),以及专为未知语言适配的 LLM-ZeroShot ASR 模型。所有模型均采用 “编码器 – 解码器” 架构,先将原始音频转换为语言无关的特征表示,再解码为文字,这种设计既保证了跨语言的通用性,又能通过针对性微调适配特定语言的发音特点。例如,针对非洲部分语言的音调变化,模型在编码器阶段强化了声纹特征捕捉,解码器则优化了声调符号的精准输出,使字符错误率(CER)在 78% 的支持语言中低于 10%,其中 500 多种语言是首次被 ASR 技术覆盖。

在数据收集层面,Meta 采取 “社区协作 + 伦理保障” 的模式,解决了低资源语言数据稀缺的行业难题。其构建的 Omnilingual ASR 语料库包含 3350 小时覆盖 348 种低资源语言的音频,数据采集过程中与非洲、亚洲等地的研究机构及社区组织深度合作,如盖茨基金会支持的 “非洲下一代声音” 联盟(含肯尼亚马塞诺大学、比勒陀利亚大学、尼日利亚数据科学协会)、Mozilla 基金会的 Common Voice 项目,以及专注非洲语言的 Lanfrica/NaijaVoices(为伊加拉语、塞雷语、乌尔霍博语等 11 种非洲语言提供数据)。为确保数据的自然性与文化相关性,采集时采用开放式、贴近生活的提示(如 “拥有几个亲密朋友和很多普通熟人,哪种更好?为什么?”),并由当地母语者参与录制与转录,同时建立全流程质量控制机制,避免数据偏差。值得注意的是,Meta 此次未采用此前 MMS 模型依赖宗教文本录音的方式,进一步降低了数据来源的局限性,使模型更适用于日常交流场景。

从性能表现与硬件适配性来看,Omnilingual ASR 在不同资源条件下均展现出稳健性,同时兼顾不同部署场景需求。在高资源与中资源语言中,95% 的语言实现了低于 10% 的字符错误率;即使在低资源语言中,也有 36% 的语言达到这一精度,且在嘈杂环境与未知领域中通过微调可进一步提升鲁棒性。硬件需求方面,最大的 omniASR_LLM_7B 模型推理需约 17GB GPU 显存,适合高端硬件部署;而 3 亿 – 10 亿参数的小型模型可在低功耗设备上运行,实现实时转录。这种 “分级部署” 能力使其既能满足企业级大规模转录需求(如跨国公司的多语言客服录音分析),也能支持边缘设备场景(如偏远地区社区的语言存档)。

此次发布的开源策略具有里程碑意义,彻底打破了 Meta 此前 Llama 系列模型的 “准开源” 限制。Omnilingual ASR 的所有资源均采用极宽松的许可协议:模型与代码遵循 Apache 2.0 许可证,允许免费用于商业与企业级项目,无需支付授权费用;语料库则采用 CC-BY 4.0 许可证,支持自由使用与修改。开发者可通过 PyPI 或 uv 工具一键安装(pip install omnilingual-asr),并借助 Hugging Face 数据集集成、预构建推理管道快速上手,甚至通过 API 直接调用支持语言列表(from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs)。这种无门槛的接入方式,不仅降低了研究机构对低资源语言技术的探索成本,也让企业得以基于自身需求定制化开发,例如将其集成到多语言语音助手、口述档案数字化系统或无障碍辅助工具中。

从 Meta 的战略背景来看,Omnilingual ASR 的推出是一次关键的 “叙事重置”。2025 年 4 月 Llama 4 模型发布后,因企业采用率远低于中国开源模型竞品,Meta 创始人扎克伯格任命 Scale AI 前 CEO Alexandr Wang 为首席 AI 官,并启动大规模高薪招聘以补强团队。此次 Omnilingual ASR 回归 Meta 擅长的多语言领域,既贴合其 “个人超级智能” 的长期战略(此前 9 月已发布定制 AI 加速器与 Arm 架构推理栈),也通过放弃元宇宙相关宣传、聚焦基础 AI 能力,重新对齐市场需求。更重要的是,该模型的发布伴随 Meta 在欧洲恢复公共训练数据使用(此前因隐私监管暂停),显示其在全球合规框架下竞争的决心,而 Apache 2.0 许可证的采用,更是直接回应了企业对 “无锁定期开源工具” 的诉求,与此前 Llama 系列的限制性许可形成鲜明对比。

在实际应用价值上,Omnilingual ASR 为解决 “语言数字鸿沟” 提供了可行路径。对濒危语言保护而言,社区可利用零样本学习快速构建转录工具,例如澳大利亚某原住民部落通过提供 50 组当地语言的音频 – 文本示例,仅用数小时就实现了部落口述历史的数字化转录;对企业而言,跨国客服、教育科技等领域可借助其覆盖的小语种能力拓展市场,如东南亚电商平台通过集成该模型,实现对老挝语、柬埔寨语等小众语言的客服录音分析,提升本地化服务质量;对学术研究来说,语言学家可基于开源语料库与模型,深入研究语言演变规律,此前因数据缺失难以开展的南太平洋岛屿语言声调研究,如今可通过模型输出的精准声纹特征加速推进。

不过,Meta 也明确指出模型的局限性:低资源语言的转录精度仍有提升空间,部分无文字体系的语言(如一些非洲部落语言)暂无法支持,且实时转录在复杂口音场景下可能出现延迟。未来,Meta 计划进一步扩大语言覆盖范围,优化方言处理能力,并探索 “多任务统一模型”—— 通过一个模型同时实现语音识别、语音合成与语言识别,目前其研究团队已观察到跨任务协同的潜力,例如将 ASR 的语音特征与 TTS(文字转语音)的韵律模型结合,可提升低资源语言合成的自然度。

总体而言,Omnilingual ASR 的发布不仅是一次技术产品迭代,更是对 ASR 行业格局的重塑:它将语言覆盖从 “固定列表” 转变为 “可扩展框架”,将技术主导权部分交还给语言社区,同时以开源生态打破商业 ASR 工具的语言壁垒。对 Meta 而言,这既是对自身 AI 战略的纠偏,也是在全球 AI 竞争中巩固多语言技术优势的关键一步;对行业与社会而言,它为 “不让任何语言掉队” 的数字化目标提供了技术基石,让更多此前被排除在数字世界之外的语言群体,得以通过语音技术接入现代信息体系。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-chong-fan-kai-yuan-ai-ling-yu-tui-chu-yuan-sheng-zhi

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月14日
Next 2025年11月14日

相关推荐

发表回复

Please Login to Comment