DeepSeek 开源文本图像压缩模型：以 10 倍压缩率颠覆大模型上下文处理逻辑

王浩然 • 2025年10月26日下午12:00 • AI前沿 • 280 views

中国 AI 研究公司 DeepSeek 于 2025 年 10 月 21 日发布开源模型 DeepSeek-OCR，该模型以 “视觉表征压缩文本” 的创新思路，打破传统大语言模型（LLM）依赖文本 token 处理信息的固有模式，实现最高 10 倍的文本压缩效率，且在压缩比小于 10 倍时保持 97% 的解码（OCR）精度，为解决 LLM 长上下文处理难题提供全新路径。此次发布同步开放完整源代码、模型权重及推理脚本，在 GitHub 与 Hugging Face 平台上线后 24 小时内，GitHub 仓库星标数突破 4000，引发全球 AI 研究社区广泛关注，OpenAI 联合创始人、前特斯拉 AI 总监 Andrej Karpathy 等行业权威均对其技术突破给予高度评价。

DeepSeek-OCR 的核心突破在于 “范式倒置”—— 传统认知中，文本 token 因简洁性被视为 LLM 处理信息的高效介质，视觉 token 则被当作附加模块，10000 个英文单词转化为像素后在多模态模型中占用空间远大于文本 token；而该模型证明，视觉表征可成为文本信息的更优压缩载体，通过光学 2D 映射将大量文本转化为少量视觉 token，实现效率反转。其架构由两大核心组件构成：一是 DeepEncoder，一款 3.8 亿参数的新型视觉编码器，融合 Meta 的 Segment Anything Model（SAM）与 OpenAI 的 CLIP 模型优势 ——SAM 擅长局部视觉感知，CLIP 负责全局视觉理解，两者通过 16 倍压缩模块衔接，可在处理高分辨率输入时保持低激活参数，兼顾压缩效率与信息完整性；二是 30 亿参数的混合专家（MoE）语言解码器，实际激活参数仅 5.7 亿，在保证模型表达能力的同时，大幅降低推理算力消耗。

在性能验证中，DeepSeek-OCR 展现出卓越的压缩效率与准确性。在 Fox 基准测试（包含多种文档布局的数据集）中，模型仅用 100 个视觉 token，就能对含 700-800 个文本 token 的文档实现 97.3% 的识别精度，等效压缩比达 7.5 倍；即便压缩比提升至 20 倍，精度仍维持在 60% 左右。在 OmniDocBench 文档解析基准测试中，其表现同样亮眼：相较于需 256 个 token / 页的 GOT-OCR2.0 与平均需 6000 个 token / 页的 MinerU2.0，DeepSeek-OCR 分别仅用 100 个与不足 800 个视觉 token，就实现性能超越。此外，模型支持五种分辨率模式以适配不同场景：“Tiny” 模式以 512×512 分辨率运行，仅需 64 个视觉 token，适合轻量任务；“Gundam” 模式则通过 n×640×640 局部视图与 1024×1024 全局视图的动态结合，高效处理复杂文档。

这一技术突破的实际应用价值显著，尤其在大规模数据处理与 LLM 上下文扩展领域。从算力效率来看，单张 Nvidia A100-40G GPU 每日可处理超 20 万页文档，若扩展至 20 台服务器（每台 8 张 GPU）的集群，日吞吐量可达 3300 万页，能快速构建 LLM 与视觉 – 语言模型（VLM）的训练数据集，大幅降低数据预处理成本。从上下文扩展潜力来看，当前顶尖 LLM 的上下文窗口多在数十万 token 量级，而 DeepSeek-OCR 的压缩方案为突破这一限制提供可能 —— 通过将文本转化为视觉 token，理论上可将 LLM 上下文窗口扩展至数千万 token，例如将企业全部核心内部文档压缩后纳入提示前缀，无需依赖搜索工具即可实现快速、低成本的精准查询，AI 研究员 Jeffrey Emanuel 将其形容为 “为 LLM 装上大容量‘记忆硬盘’”。

更具前瞻性的是，该模型为模拟人类认知的 “记忆衰减机制” 提供技术基础。研究团队在论文中提出设想：将较早的对话轮次逐步下采样至更低分辨率，以更少视觉 token 保留关键信息，如同人类记忆随时间自然淡化的过程，既减少长期上下文的 token 消耗，又符合生物认知规律。同时，视觉处理方式还解决了传统文本 tokenizer（分词器）的固有缺陷 —— 传统 tokenizer 需处理 Unicode、字节编码等复杂问题，存在安全漏洞（如续字节引发的越狱风险），且可能将视觉上相同的字符解析为不同 token；而 DeepSeek-OCR 通过直接处理文本图像，天然支持字体、颜色、布局等格式信息的保留，还能实现双向注意力机制，避免自回归注意力的局限，Karpathy 直言：“或许所有 LLM 的输入都应是图像，即使是纯文本，也该先渲染成图片再输入。”

模型的强大性能源于大规模、多样化的训练数据与高效训练策略。DeepSeek 收集了覆盖 100 种语言的 3000 万页 PDF 文档（其中中英文占 2500 万页），涵盖学术论文、财务报告、教科书、手写笔记等 9 类文档类型；同时引入 “OCR 2.0” 数据，包括 1000 万张合成图表、500 万个化学公式、100 万个几何图形，辅以 20% 的通用视觉数据（如图像 caption、目标检测）与 10% 的纯文本数据，确保模型兼顾文本识别与语言理解能力。训练过程采用流水线并行技术，在 160 张 Nvidia A100-40G GPU（20 个节点）上进行，视觉编码器与语言模型各分为两个流水线阶段，多模态数据的训练速度达每日 700 亿 token，兼顾效率与效果。

不过，该技术仍存在待探索的关键问题，核心集中在 “压缩后视觉 token 的推理能力” 上。目前论文主要验证了压缩 – 解压缩的准确性（以 OCR 精度衡量），尚未深入评估 LLM 基于这些视觉 token 进行复杂推理的能力 —— 例如能否像处理纯文本 token 那样，完成逻辑分析、数学计算等高级任务，AI 研究员们担忧 “视觉模态可能限制模型的表达与推理灵活性”。对此，DeepSeek 团队表示将在后续研究中开展 “数字 – 光学文本交错预训练”“大海捞针测试” 等实验，进一步验证视觉压缩对 LLM 下游认知功能的影响。

从行业竞争视角看，DeepSeek-OCR 的开源发布也引发对头部企业技术路线的猜测。Emanuel 推测，谷歌 Gemini 系列模型之所以具备大上下文窗口与出色 OCR 性能，可能采用类似视觉压缩技术，而 DeepSeek 的开源则让这一潜在方案成为行业共享资源，打破技术壁垒。值得注意的是，这并非 DeepSeek 首次以低成本实现高竞争力成果 —— 此前其 DeepSeek-V3 模型宣称训练成本仅 560 万美元（不含研发与基础设施成本），远低于 OpenAI、Anthropic 等企业同类模型数亿美元的投入，此次开源延续了其 “以算法创新降低 AI 门槛” 的策略，为中小团队与研究机构提供突破算力限制的技术工具。

总体而言，DeepSeek-OCR 的发布不仅是一款高效 OCR 工具的落地，更代表 AI 信息处理范式的重要探索 —— 它挑战了 “文本 token 是 LLM 最优输入” 的传统认知，证明视觉模态在压缩效率、格式兼容性、安全稳定性上的独特优势。随着后续研究的推进，这一技术可能重塑 LLM 的架构设计与应用场景，推动 AI 向 “更接近人类视觉认知” 的方向发展，为长文档处理、大规模知识管理、类人认知 AI 等领域打开全新空间。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepseek-kai-yuan-wen-ben-tu-xiang-ya-suo-mo-xing-yi-10-bei

DeepSeek-OCR 大模型上下文扩展开源 LLM 文本图像压缩混合专家解码器 (MoE)算力效率视觉 token 记忆衰减机制

Like (0)

王浩然作者

0 0

谷歌 AI Studio 升级 “氛围编程” 体验：零基础也能分钟级构建并部署应用

Previous 2025年10月26日

阿里云 Qwen Deep Research 升级：一键将研究报告转化为网页与播客，重构多模态内容生产流程

Next 2025年10月26日

AI前沿

OpenAI o1 介绍：人工智能推理能力的飞跃，助力解决高级问题

OpenAI 的新模型OpenAI o1或 Strawberry 代表了人工智能领域的重大进步。它以 OpenAI 的 GPT 系列等先前模型为基础，并引入了增强的推理能力，从而加…

点点
2024年9月17日
000
AI前沿

微软 Copilot 使用分析：凌晨两点的哲学追问成新趋势

F・司各特・菲茨杰拉德曾写道：“在灵魂真正的黑暗之夜，永远是凌晨三点钟。” 而微软最新的 Copilot 使用分析显示，这种夜间探索存在意义的倾向在 AI 时代依然延续 —— 宗教…

王浩然
2025年12月15日
000
AI前沿

Google Cloud 将搜索和 YouTube 背后的技术引入企业 AI 应用

随着生成式人工智能的不断进步，对于许多企业来说，一个简单的聊天机器人可能已不再足够。云计算超大规模提供商正在竞相建立自己的数据库和工具，以帮助企业快速高效地部署运营数据，从而构建…

点点
2024年10月4日
000
AI前沿

代理型AI：下一波创新浪潮‌

随着人工智能（AI）技术的飞速发展，我们正逐步迈入一个由智能代理主导的新时代。这些AI代理不仅能够执行复杂的任务，还能通过学习和适应，提供更加个性化、高效的服务。本文将深入探讨代理…

王浩然
2025年5月7日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

确保医疗保健中自主AI的弹性安全‌

在当今数字化时代，数据泄露的战争愈演愈烈，对全球医疗保健组织构成了日益严峻的挑战。据当前统计，全球数据泄露的平均成本已达到445万美元，而对于在美国境内为患者提供服务的医疗保健提供…

王浩然
2025年5月25日
000
AI前沿

科技巨头联手白宫推进AI教育革命：亚马逊、谷歌、微软承诺百亿资源重塑未来劳动力‌

在美国白宫椭圆形办公室的穹顶之下，一场关乎未来十年国家竞争力的战略布局正在展开。亚马逊、谷歌和微软三大科技巨头在由第一夫人梅拉尼娅·特朗普主持的AI教育特别工作组会议上，公布了总额…

王浩然
2025年9月6日
000
AI前沿

Adobe 展示用于平面绘图的 3D 旋转工具

目前，我们已经习惯了使用人工智能图像工具，这些工具可以立即完成以前需要大量精力才能完成的编辑，例如填充场景中缺失的部分或删除照片中不需要的部分而不影响背景。但在本周的 Adob…

点点
2024年10月21日
000
AI前沿

Databricks开源声明式ETL框架，加速数据管道构建90%‌

在近日举行的年度Data + AI峰会上，Databricks公司宣布了一项重大举措：将其核心的声明式ETL框架开源，并命名为Apache Spark声明式管道（Apache Sp…

王浩然
2025年6月13日
000
AI前沿

超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…

王浩然
2025年3月22日
000
AI前沿

Mixup：前谷歌团队推出 “填空式” AI 图像创作应用，主打社交化趣味体验

曾开发 3D 设计应用 Rooms 的 Things, Inc. 团队（核心成员为前谷歌员工），推出全新 AI 照片编辑应用 Mixup。该应用目前仅支持 iOS 系统，以 “填空…

王浩然
2025年11月29日
000
AI前沿

Meta推出Gaia2基准测试平台：重新定义AI智能体在真实场景中的评估标准‌

在人工智能技术快速发展的今天，如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…

王浩然
2025年9月28日
000
AI前沿

Oleksandr (Sasha) Strozhemin，Trinetix 联合创始人兼首席执行官 – 访谈系列

Oleksandr (Sasha) Strozhemin 是Trinetix的联合创始人兼首席执行官。Trinetix 是一家全球性科技公司，为财富 500 强企业和在金融、专业服…

点点
2024年8月30日
000
AI前沿

2025年云备份姿态管理现状报告：企业韧性中的危险漏洞‌

在当今数字化转型加速的时代，企业对云服务的依赖日益加深，云备份作为保障数据安全和业务连续性的关键环节，其重要性不言而喻。然而，根据Eons最新发布的《2025年云备份姿态管理现状报…

王浩然
2025年6月19日
000
AI前沿

OpenAI忽视专家意见，推出过度谄媚的GPT-4o模型‌

在人工智能领域，OpenAI一直以其创新性的生成式AI技术引领潮流。然而，最近的一次模型更新却引发了广泛争议。OpenAI在推出GPT-4o模型后，因用户反馈模型表现过于谄媚而迅速…

王浩然
2025年5月7日
000
AI前沿

Fiddler AI获3000万美元C轮融资，打造自主AI控制基础设施新生态

在AI技术向自主化、智能化快速演进的当下，企业对于AI系统的可控性与治理能力需求日益迫切。近日，专注于AI治理与可观测性的Fiddler AI宣布完成3000万美元C轮融资，这一消…

王浩然
2026年2月1日
000
AI前沿

前谷歌、苹果工程师无条件开源 Oumi AI 平台，或将助力打造下一个 DeepSeek

如果之前还不清楚，那么现在肯定非常清楚：开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。但开源 AI 究竟是什么？对于 Meta 及其L…

王浩然
2025年2月4日
000
AI前沿

AI 初创公司为何自主掌控数据：从质量突围到构建核心竞争壁垒

在生成式 AI 技术飞速迭代的当下，数据已不再是简单的 “训练原料”，而是决定 AI 模型性能、产品竞争力乃至企业生存的核心资产。越来越多 AI 初创公司正跳出 “依赖第三方数据”…

王浩然
2025年10月20日
000
AI前沿

ChatGPT 迎来三周年：对人工智能行业的深远影响与未来启示

11 月 30 日是 ChatGPT 发布三周年的纪念日。这款由 OpenAI 推出的聊天机器人，不仅以史上最快增长速度成为消费级应用的标杆，更在三年内催化了全球人工智能行业的爆发…

王浩然
2025年12月5日
000
AI前沿

Narvar 如何利用人工智能和数据来增强客户购买后体验

当客户点击电子商务网站上的“购买”按钮后会发生什么？这是一个被称为售后环节的领域，它通常是零售商运营中最昂贵和影响最大的方面之一。售后活动包括确定交付、客户保留以及（如果需要）退…

王浩然
2025年1月10日
000

发表回复

Please Login to Comment

DeepSeek 开源文本图像压缩模型：以 10 倍压缩率颠覆大模型上下文处理逻辑

相关推荐

发表回复