为 AI 赋予视觉类比能力：突破表层相似，迈向人类级感知

王浩然 • 2025年12月19日下午6:00 • AI前沿 • 317 views

2025 年 12 月 16 日，马丁・安德森（Martin Anderson）在《Bringing Visual Analogies to AI》中指出，当前主流 AI 视觉模型存在关键局限 —— 仅能识别图像的 “表层相似性”（如形状、颜色匹配），无法像人类一样感知 “关系相似性”（如地球圈层与桃子结构的类比、咖啡漩涡与星系分支的分形关联），而这种对抽象关系的理解是人类感知与推理的核心能力。为解决这一问题，美国研究团队围绕 “关系视觉相似性” 展开研究，通过构建专用数据集、设计创新训练方法与评估指标（relsim），成功让 AI 模型初步具备识别图像深层结构关联的能力，推动机器视觉向人类级感知迈进。

当前 AI 视觉对比系统（如 LPIPS、DINO、CLIP-I）虽能完成图像相似性匹配，但本质是 “字面意义上的表层比较”，缺乏想象力与抽象推理能力。例如，这些模型会因面部识别算法依赖低层级面部结构特征，将随机物体误判为人脸（即 “空想性视错觉”），却无法理解 “展示随时间变化的逻辑” 这类深层关系 —— 面对参考图像，AI 仅会将形状、颜色相似的图像（如 Group B）归为同类，而人类能同时识别出遵循相同潜在逻辑（如 “事物的阶段性转变”）但表层差异大的图像（如 Group A）。这种局限源于传统模型依赖静态属性匹配，无法像人类一样通过语言、先验知识抽象图像的底层结构，进而推导看似无关物体间的关联（如从桃子剖面与地球圈层的相似性中感知 “核心 – 外层” 的层级关系）。

为让 AI 掌握关系视觉相似性，研究团队采取了三步核心方法。第一步是数据集构建，以 LAION-2B 超大规模数据集为基础，利用 Qwen2.5-VL-7B 模型（结合 1300 个正向、11000 个负向人工标注样本训练），筛选出 11.4 万张包含 “弹性关系结构” 的图像，剔除数据集中的低质量样本，确保图像具备可抽象的深层逻辑。第二步是抽象标注设计，不同于传统数据集聚焦属性描述（如 “红色圆形物体”），研究团队让模型为每组图像生成 “匿名标题”，用 “{主体}”“{运动类型}” 等占位符替代具体物体名称，捕捉共享逻辑而非局部细节 —— 例如，将 “小狗用相机拍照”“猴子用画笔绘画” 统一标注为 “{动物} 使用 {工具} 完成 {动作}”，强制 AI 关注关系而非表层特征。第三步是模型训练与优化，采用 LoRA 技术在 8 台 A100 GPU 上对视觉 – 语言模型（VLM）进行 1.5 万步微调，文本嵌入环节使用 Sentence-Transformers 库的 all-MiniLM-L6-v2 模型，同时将数据集按 10 万 / 1.4 万划分为训练集与评估集，确保模型学习效果可验证。

在性能测试中，relsim 模型展现出显著优势。研究采用 “检索任务” 评估：给定查询图像，模型需从 2.8 万张图像（含 1.4 万张评估图与 1.4 万张新增 LAION-2B 样本）中找到具备相同关系逻辑的图像。通过 GPT-4o（0-10 分评分）与人类受试者双重验证，结果显示：传统模型中，LPIPS（侧重感知相似性）得分仅 4.56，DINO（自监督训练）5.14，CLIP-I（借助图像标题抽象）5.91；而 relsim 模型以 6.77 分高居榜首，且在人类偏好测试中，受试者一致认为其检索结果的关系相似性优于所有基线模型。进一步的联合可视化分析显示，relsim 能区分 “关系相似” 与 “属性相似”—— 以 “小狗持相机” 为查询图像时，模型可识别出 “其他动物使用工具”（关系相似但属性不同）与 “其他小狗做人类动作”（关系与属性均相似）两类图像，证明其能捕捉互补的视觉相似维度，而传统模型仅能聚焦属性匹配。

该研究的应用价值体现在两大场景。一是关系型图像检索，让搜索更贴合人类创造性认知 —— 例如，搜索 “拟人化食物”（如做成人脸造型的蛋糕）时，模型会返回其他具备 “食物模仿人类特征” 逻辑的图像，而非仅匹配颜色、形状的食物；搜索 “切片物体” 时，能覆盖水果切片、金属切片等不同材质但遵循 “切割产生剖面” 逻辑的图像。二是类比图像生成，支持基于深层关系的创作 —— 给定输入图像与关系提示（如 “将‘水滴落入水面’的动态逻辑，转化为‘行星撞击星云’的场景”），专有模型（经 relsim 思路优化）能生成保留结构逻辑但形式差异大的图像，而传统开源模型易陷入表层风格模仿，无法传递深层概念。

研究团队强调，关系视觉相似性的突破不仅提升 AI 视觉能力，更能推动生成式 AI 向 “抽象创作” 演进。当前生成式 AI 在创作 “愤怒”“幸福” 等概念性图像时，本质是复现数据集中关联度高的流行图像（即 “记忆而非抽象”），而融入关系相似性后，AI 有望基于深层逻辑生成更具创意、更贴合人类认知的内容，甚至延伸至文本生成领域（如创作具备类比逻辑的分析性、虚构性文字）。不过，研究仍存在拓展空间，例如如何让模型处理更复杂的多关系叠加场景，以及如何进一步降低训练成本以适配更多应用场景。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ai-fu-yu-shi-jue-lei-bi-neng-li-tu-po-biao-ceng-xiang

Like (0)

王浩然作者

0 0

智能体 AI 为何需要新型客户数据

Previous 2025年12月19日

字节级语言模型新突破：Ai2 的 Bolmo 架构实现高效训练与质量平衡

Next 2025年12月19日

AI前沿

Creatio发布8.3版“Twin”CRM更新，AI全面融入核心体验‌

在CRM领域，一场静悄悄的革命正在发生。总部位于波士顿的Creatio公司，以其专注于无代码和低代码CRM应用部署而闻名，近期正式推出了其平台的最新升级——8.3版“Twin”发布…

王浩然
2025年6月27日
000
AI前沿

Diffbot 的人工智能模型无需猜测——它能够知道，这要归功于万亿事实知识图谱

Diffbot是一家位于硅谷的小公司，以维护世界上最大的网络知识索引之一而闻名，该公司今天宣布发布一种新的人工智能模型，有望解决该领域最大的挑战之一：事实准确性。新模型是Meta…

王浩然
2025年1月10日
000
AI前沿

生成式AI在零售业的机遇与挑战：高采用率背后的安全隐忧与成本困境‌

全球零售行业正经历一场由生成式AI驱动的数字化转型浪潮，但最新行业报告揭示，企业在拥抱这项革命性技术时，正面临安全风险与实施成本的双重考验。根据Artificial Intelli…

王浩然
2025年9月30日
000
AI前沿

Meta 的 AI 负责人表示，世界模型是实现“人类水平的 AI”的关键，但可能还需要 10 年时间

当今的人工智能模型真的能像人脑一样记忆、思考、规划和推理吗？一些人工智能实验室会让你相信它们是的，但根据 Meta 首席人工智能科学家 Yann LeCun 的说法，答案是否定的。…

点点
2024年10月19日
000
AI前沿

人道主义排雷：超越无人机与人工智能的新展望‌

自2014年起，我便与无人机技术结下了不解之缘。然而，乌克兰战争的爆发，却成为了我职业生涯中的一个重要转折点。自2022年开始，我的研究重心转移至探索如何利用无人机技术自动化人道主…

王浩然
2025年6月17日
000
AI前沿

SpaceX 将于周日尝试历史性地接回星际飞船助推器

星际飞船已准备好再次飞行——SpaceX 将首次尝试将助推器带回发射场，并用一双超大号的“筷子”接住它。 SpaceX 将于周日在太平洋标准时间凌晨 5 点（当地时间早上 7 点）…

点点
2024年10月13日
000
AI前沿

谷歌AP2支付协议：AI智能体自主交易时代的来临‌

全球科技巨头谷歌近日推出革命性的”Agent Payments Protocol 2.0″(AP2)协议，这项突破性技术首次实现AI智能体间的自主价值交换体…

王浩然
2025年9月17日
000
AI前沿

研究证实：主流大语言模型的思维链推理多为“装饰性”，AI先有答案再编过程

当我们看到ChatGPT、Claude等大语言模型给出条理清晰的分步推理过程时，往往会默认这是AI一步步推导答案的“思考轨迹”。但来自印度的一项最新研究却打破了这个认知：这些看似严…

王浩然
2026年3月29日
000
AI前沿

出现了一种神秘的新图像生成模型

一种神秘的新图像生成模型在众包人工智能分析基准上击败了 Midjourney、Black Forest Labs 和 OpenAI 的模型。该模型名为“ red_pa nda…

王浩然
2024年10月29日
000
AI前沿

华为AI硬件突破挑战英伟达霸主地位

在全球AI芯片竞赛中，华为最近的一项技术突破引发了广泛关注。这家中国科技巨头宣布其最新研发的CloudMatrix 384 Supernode计算系统，据称性能超越了美国芯片领导者…

王浩然
2025年5月4日
000
AI前沿

DeepSeek 真的在向中国发送数据吗？让我们来解密

上周，中国初创公司DeepSeek发布了性能强大但成本低廉的开源版本 DeepSeek-R1，在人工智能界引起轩然大波。该模型使用纯强化学习 (RL)，在一系列基准测试中与 Ope…

王浩然
2025年1月28日
000
AI前沿

AI 赋能税务合规：从沉重负担到战略资产的转型之路

税务法规的高频变动与实时支付体系的普及，正将企业税务合规推向全新挑战 —— 全球电子商务扩张、数字订阅等新型商业模式的兴起，使得每一笔交易都可能成为需精准分类、计算与申报的税务事件…

王浩然
2025年12月7日
000
AI前沿

本周人工智能：OpenAI 的 o1 为何会改变人工智能规则游戏

几天前，OpenAI 向全世界发布了其最新的旗舰生成模型 o1。o1被宣传为一种“推理”模型，它实际上需要更长的时间来“思考”问题，然后再回答问题，分解问题并检查自己的答案。 o1…

王浩然
2024年9月19日
000
AI前沿

实测 Stickerbox：专为儿童打造的 AI 贴纸制作工具

儿童 AI 玩具 Stickerbox 这款由布鲁克林初创公司 Hapiko 推出的语音激活贴纸打印机，打破了人们对 “AI 儿童玩具缺乏创意价值” 的固有偏见，凭借 “激发想象 …

王浩然
2025年12月1日
000
AI前沿

AI 投资价值鸿沟加速扩大：BCG 揭示企业 AI 应用的两极分化危机

波士顿咨询集团（BCG）最新研究指出，企业在 AI 投资领域正面临日益严峻的 “价值鸿沟”—— 仅 5% 的企业能通过规模化 AI 应用实现切实的利润增长，成为行业内的 “AI 领…

王浩然
2025年10月6日
000
AI前沿

Meta 在手机 AI 竞赛中击败谷歌和苹果

Meta Platforms创建了其 Llama 人工智能模型的较小版本，可以在智能手机和平板电脑上运行，为数据中心以外的人工智能开辟了新的可能性。该公司今天宣布推出其Llama…

王浩然
2024年10月27日
000
AI前沿

据报道，Perplexity 正寻求以 80 亿美元的估值进行融资

据《华尔街日报》报道，人工智能搜索引擎 Perplexity 正在进行融资谈判，希望以 80 亿美元的估值筹集约 5 亿美元。如果按照这些条款达成交易，Perplexity 的估…

王浩然
2024年10月21日
000
AI前沿

‌OpenAI与Anthropic联合测试揭露AI越狱与滥用风险：企业评估GPT-5必须关注的五大维度‌

在人工智能安全领域迎来历史性突破的时刻，OpenAI与Anthropic这两大行业巨头首次开展跨公司模型安全评估，揭示了当前大语言模型在对抗性测试中令人担忧的行为模式。这项发布于2…

王浩然
2025年8月30日
000
AI前沿

AI编程工具Cursor曝出严重安全漏洞：信任机制缺陷或成开发者噩梦‌

全球AI辅助编程工具市场在2024年估值已达67亿美元，预计到2030年将突破257亿美元。在这场技术革命的核心，涌现出如Cursor这类将传统编程环境与人工智能相结合的新型AI代…

王浩然
2025年8月15日
000
AI前沿

Salesforce 推出新型 Slackbot AI 智能体，剑指微软等竞争对手

在科技巨头激烈角逐的企业软件市场中，Salesforce 凭借推出新型 Slackbot AI 智能体，再次成为行业焦点。这一举措不仅彰显了 Salesforce 在人工智能领域的…

王浩然
2026年1月16日
000

发表回复

Please Login to Comment

为 AI 赋予视觉类比能力：突破表层相似，迈向人类级感知

相关推荐

发表回复