
艾伦人工智能研究所(Ai2)推出字节级语言模型家族 Bolmo,包含 7B 和 1B 两个参数版本,这是业内首批完全开源的字节级语言模型。该模型通过对现有 Olmo 3 模型进行 “字节化” 改造,在无需重新从零训练的前提下,实现了高效的字节级训练,同时避免牺牲模型性能,为企业处理多语言、噪声文本及边缘部署场景提供了新选择。
字节级语言模型的核心优势在于直接对原始 UTF-8 字节进行处理,无需预设词汇表或分词器(Tokenizer),这使其能更可靠地应对拼写错误、稀有语言及非传统文本,有效解决了传统子词模型在处理低资源语言或噪声输入时的脆弱性问题。对于需跨语言部署 AI、处理用户嘈杂输入或在资源受限的边缘环境运行模型的企业而言,无分词器设计大幅降低了运营复杂度,减少了因分词器适配不当导致的性能损耗。
在技术实现上,Ai2 采用 “基于现有模型改造” 的创新路径,以 Olmo 3 7B 模型 checkpoint 为基础,通过两阶段训练完成 “字节化” 转型,大幅降低训练成本。第一阶段冻结 Olmo 3 的 Transformer 骨干网络,仅训练局部编码器、解码器、边界预测器及语言建模头,此阶段训练高效且成本低,仅需 98 亿个 token;第二阶段解冻模型整体,使用额外 token 继续训练,打破传统子词模型的词汇表瓶颈,使模型能更灵活地处理字节级数据。训练过程中,Bolmo 采用与 Olmo 系列相同的 Dolma 3 数据集,并结合开源代码数据集及字符级数据,确保数据质量与模型兼容性,同时 Ai2 计划开源模型检查点、代码及完整研究论文,为社区提供可复现、可扩展的字节级模型构建蓝图。
性能测试显示,Bolmo 在同类模型中表现突出。在覆盖数学、STEM 推理、问答、通用知识及代码的评估套件中,Bolmo 7B 在字符级基准测试(如 CUTE、EXECUTE)中表现优于其他模型,且相比基础模型 Olmo 3 在准确性上有显著提升,尤其在编码、数学、多选题问答及字符级理解任务中,其性能超过同等规模的字节级与字符级模型。与 Meta 的 BLT、ByT5、斯坦福的 MrT5 及 Canine 等同类字节级研究模型相比,Bolmo 在保持开源优势的同时,展现出更强的实用性与场景适配能力。
从企业应用价值来看,Bolmo 为企业异构模型架构提供了新的适配选择。对于已构建多模型混合部署体系的企业,Bolmo 可自然融入现有 Olmo 生态,无需重构基础设施,降低了引入字节级模型的风险与成本。其动态分层设计使数据压缩成为可灵活切换的功能,企业可根据实际场景(如边缘部署需轻量化、多语言处理需高兼容性)调整模型参数,平衡性能与资源消耗。此外,对于需处理多语言业务、用户噪声输入(如社交媒体评论、语音转文字错误)或在边缘设备(如物联网终端)部署 AI 的企业,Bolmo 的无分词器特性与高效性能,使其成为传统子词模型的理想补充,能有效提升模型在复杂场景下的鲁棒性与可靠性。
综合来看,Ai2 的 Bolmo 架构通过创新的 “字节化改造” 思路,突破了字节级模型训练成本高、难以规模化应用的瓶颈,其开源特性与生态兼容性进一步推动了字节级语言模型的实用化进程,为企业在多语言、噪声处理及边缘部署等场景提供了更高效、灵活的 AI 解决方案。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zi-jie-ji-yu-yan-mo-xing-xin-tu-po-ai2-de-bolmo-jia-gou-shi