
2025 年 12 月 16 日,马丁・安德森(Martin Anderson)在《Bringing Visual Analogies to AI》中指出,当前主流 AI 视觉模型存在关键局限 —— 仅能识别图像的 “表层相似性”(如形状、颜色匹配),无法像人类一样感知 “关系相似性”(如地球圈层与桃子结构的类比、咖啡漩涡与星系分支的分形关联),而这种对抽象关系的理解是人类感知与推理的核心能力。为解决这一问题,美国研究团队围绕 “关系视觉相似性” 展开研究,通过构建专用数据集、设计创新训练方法与评估指标(relsim),成功让 AI 模型初步具备识别图像深层结构关联的能力,推动机器视觉向人类级感知迈进。
当前 AI 视觉对比系统(如 LPIPS、DINO、CLIP-I)虽能完成图像相似性匹配,但本质是 “字面意义上的表层比较”,缺乏想象力与抽象推理能力。例如,这些模型会因面部识别算法依赖低层级面部结构特征,将随机物体误判为人脸(即 “空想性视错觉”),却无法理解 “展示随时间变化的逻辑” 这类深层关系 —— 面对参考图像,AI 仅会将形状、颜色相似的图像(如 Group B)归为同类,而人类能同时识别出遵循相同潜在逻辑(如 “事物的阶段性转变”)但表层差异大的图像(如 Group A)。这种局限源于传统模型依赖静态属性匹配,无法像人类一样通过语言、先验知识抽象图像的底层结构,进而推导看似无关物体间的关联(如从桃子剖面与地球圈层的相似性中感知 “核心 – 外层” 的层级关系)。
为让 AI 掌握关系视觉相似性,研究团队采取了三步核心方法。第一步是数据集构建,以 LAION-2B 超大规模数据集为基础,利用 Qwen2.5-VL-7B 模型(结合 1300 个正向、11000 个负向人工标注样本训练),筛选出 11.4 万张包含 “弹性关系结构” 的图像,剔除数据集中的低质量样本,确保图像具备可抽象的深层逻辑。第二步是抽象标注设计,不同于传统数据集聚焦属性描述(如 “红色圆形物体”),研究团队让模型为每组图像生成 “匿名标题”,用 “{主体}”“{运动类型}” 等占位符替代具体物体名称,捕捉共享逻辑而非局部细节 —— 例如,将 “小狗用相机拍照”“猴子用画笔绘画” 统一标注为 “{动物} 使用 {工具} 完成 {动作}”,强制 AI 关注关系而非表层特征。第三步是模型训练与优化,采用 LoRA 技术在 8 台 A100 GPU 上对视觉 – 语言模型(VLM)进行 1.5 万步微调,文本嵌入环节使用 Sentence-Transformers 库的 all-MiniLM-L6-v2 模型,同时将数据集按 10 万 / 1.4 万划分为训练集与评估集,确保模型学习效果可验证。
在性能测试中,relsim 模型展现出显著优势。研究采用 “检索任务” 评估:给定查询图像,模型需从 2.8 万张图像(含 1.4 万张评估图与 1.4 万张新增 LAION-2B 样本)中找到具备相同关系逻辑的图像。通过 GPT-4o(0-10 分评分)与人类受试者双重验证,结果显示:传统模型中,LPIPS(侧重感知相似性)得分仅 4.56,DINO(自监督训练)5.14,CLIP-I(借助图像标题抽象)5.91;而 relsim 模型以 6.77 分高居榜首,且在人类偏好测试中,受试者一致认为其检索结果的关系相似性优于所有基线模型。进一步的联合可视化分析显示,relsim 能区分 “关系相似” 与 “属性相似”—— 以 “小狗持相机” 为查询图像时,模型可识别出 “其他动物使用工具”(关系相似但属性不同)与 “其他小狗做人类动作”(关系与属性均相似)两类图像,证明其能捕捉互补的视觉相似维度,而传统模型仅能聚焦属性匹配。
该研究的应用价值体现在两大场景。一是关系型图像检索,让搜索更贴合人类创造性认知 —— 例如,搜索 “拟人化食物”(如做成人脸造型的蛋糕)时,模型会返回其他具备 “食物模仿人类特征” 逻辑的图像,而非仅匹配颜色、形状的食物;搜索 “切片物体” 时,能覆盖水果切片、金属切片等不同材质但遵循 “切割产生剖面” 逻辑的图像。二是类比图像生成,支持基于深层关系的创作 —— 给定输入图像与关系提示(如 “将‘水滴落入水面’的动态逻辑,转化为‘行星撞击星云’的场景”),专有模型(经 relsim 思路优化)能生成保留结构逻辑但形式差异大的图像,而传统开源模型易陷入表层风格模仿,无法传递深层概念。
研究团队强调,关系视觉相似性的突破不仅提升 AI 视觉能力,更能推动生成式 AI 向 “抽象创作” 演进。当前生成式 AI 在创作 “愤怒”“幸福” 等概念性图像时,本质是复现数据集中关联度高的流行图像(即 “记忆而非抽象”),而融入关系相似性后,AI 有望基于深层逻辑生成更具创意、更贴合人类认知的内容,甚至延伸至文本生成领域(如创作具备类比逻辑的分析性、虚构性文字)。不过,研究仍存在拓展空间,例如如何让模型处理更复杂的多关系叠加场景,以及如何进一步降低训练成本以适配更多应用场景。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ai-fu-yu-shi-jue-lei-bi-neng-li-tu-po-biao-ceng-xiang