
由全球最广泛使用的计算机视觉库 OpenCV 创始人创立的 AI 初创公司 CraftStory 正式走出 “隐身模式”,凭借其最新发布的 Model 2.0 视频生成系统,在 AI 视频领域掀起变革。该系统最引人瞩目的突破在于,能生成长达 5 分钟、以人为中心的高真实感视频 —— 这一能力远超行业竞品,包括 OpenAI 的 Sora 2(最长 25 秒)与谷歌的 Veo(多数竞品仅能生成 10 秒以内片段),为企业解决 “视频制作规模化难” 的痛点提供了新路径,尤其适用于培训、营销、客户教育等需要长时程视频的场景。
CraftStory 此次获得 200 万美元初始融资,资金主要来自 Andrew Filev(2021 年将项目管理软件公司 Wrike 以 22.5 亿美元出售给 Citrix,现运营 AI 编码公司 Zencoder)。尽管与 OpenAI 单轮超 60 亿美元的融资规模相比相形见绌,但公司创始人兼 CEO、OpenCV 早期核心贡献者 Victor Erukhimov 强调,“巨额算力与资金并非成功的唯一路径”,团队的核心竞争力在于计算机视觉领域的深厚积累与对 “高质量数据” 的专注,而非盲目追求规模。
Model 2.0 的技术突破源于其创新的 “并行扩散架构”,彻底颠覆了传统视频生成模型的 “顺序处理” 逻辑。传统模型通过在 “时间作为第三轴” 的三维空间中运行扩散算法生成视频,生成长度越长,所需网络规模、训练数据与算力呈正比增长,且易出现 “瑕疵累积” 问题 —— 前几秒的画面缺陷会不断传递到后续片段。而 CraftStory 的并行架构通过 “多小型扩散算法同步运行 + 双向约束连接”,让视频的所有片段(即使是 5 分钟全长)被同时处理,而非分段生成后拼接。Erukhimov 解释:“视频后半段的内容也能反向影响前半段,避免了顺序处理时瑕疵不断叠加的问题。” 例如,生成 “产品教程” 视频时,系统会同步优化开头的操作演示与结尾的总结画面,确保整体逻辑连贯、细节一致,不会出现传统模型中 “前半段按钮位置与后半段不符” 的漏洞。
数据训练策略上,CraftStory 摒弃了行业普遍依赖的 “互联网爬取视频”,转而投入资源打造专有数据集。公司聘请专业工作室,使用高帧率摄像系统拍摄演员,即使是手指快速移动等细节也能捕捉清晰,避免了标准 30 帧 / 秒视频中常见的运动模糊。这种对 “高质量数据” 的坚持,使得 Model 2.0 在无需海量数据与巨额训练预算的情况下,仍能生成细腻、自然的视频。Erukhimov 表示:“制作高质量视频的关键不是数据量,而是数据质量 —— 我们用少量精准数据,就实现了传统模型需海量数据才能达到的真实感。”
当前,Model 2.0 采用 “视频到视频” 的工作模式:用户需上传一张静态图像(如产品图、人物肖像)作为基础,再上传一段 “驱动视频”(包含希望 AI 复制的人物动作),系统会结合两者生成新视频。CraftStory 提供由专业演员拍摄的预设驱动视频(演员会从动作数据使用中获得分成),用户也可上传自定义 footage。在生成效率上,系统生成 30 秒低分辨率视频约需 15 分钟,同时具备先进的唇形同步功能 —— 能将脚本或音轨与人物嘴部动作精准匹配,以及手势对齐算法 —— 确保肢体语言与语音节奏、情感基调保持一致。例如,生成 “软件操作培训视频” 时,AI 能让虚拟讲师的手势与 “点击按钮”“拖拽文件” 的语音讲解同步,表情也会随内容情绪(如强调重点时的严肃、演示成功时的微笑)自然变化。
在市场定位上,CraftStory 选择聚焦 B2B 领域,避开消费者创意工具的红海,专注解决企业视频制作的核心痛点。对软件公司、制造业等企业而言,传统培训视频、产品演示视频制作成本高(动辄数万美元、耗时数月)、更新慢(产品迭代后需重新拍摄),而 AI 生成的短片段又无法完整讲解复杂操作(如 “企业软件流程设置”“工业设备维护步骤”)。Model 2.0 的 5 分钟长视频能力恰好填补这一空白,Filev 举例:“小企业主如今能在几分钟内生成原本需 2 万美元、2 个月制作的培训视频,且产品更新后只需调整脚本,无需重拍。” 此外,CraftStory 还向创意代理机构推广,帮助其降低多日拍摄的成本 —— 代理机构只需拍摄一次演员素材,即可通过 AI 转化为不同风格、不同场景的成品视频,大幅提升制作效率。
未来,CraftStory 的 roadmap 清晰聚焦两大方向:一是开发 “文本到视频” 模型,让用户直接通过脚本生成长视频,进一步降低使用门槛;二是支持 “移动镜头” 场景,如高端广告中常见的 “边走边说” 格式,丰富视频表现形式。
从行业竞争格局来看,CraftStory 面临的对手既有 OpenAI、谷歌等资金雄厚的科技巨头,也有 Runway、Pika、Stability AI 等专注视频生成的初创公司。但 Erukhimov 认为,团队的差异化优势在于 “专注以人为中心的长视频”—— 巨头们更倾向于打造 “通用视频基础模型”,而 CraftStory 则深耕企业所需的 “场景化长视频”,相当于 “巨头建引擎,我们建引擎之上的专业生产车间”。这种聚焦策略,让 CraftStory 在资源有限的情况下,仍能在细分领域形成竞争力。
尽管目前 Model 2.0 仅通过app.craftstory.com/model-2.0开放早期访问,且面临 “资金规模小、算力资源有限” 的挑战,但 Erukhimov 对未来充满信心。他认为,AI 生成视频将很快成为企业传递信息的主要方式,而 CraftStory 的长视频能力与企业需求的契合,将帮助其在竞争中占据一席之地:“当企业需要一段能完整讲解产品、培训员工的视频时,他们会发现,只有我们能满足这种‘长而精’的需求。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/opencv-chuang-shi-ren-tui-chu-ai-shi-pin-chu-chuang-gong-si