从幻觉到硬件：一个计算机视觉项目曲折历程中的教训‌

王浩然 • 2025年7月7日上午11:00 • AI前沿 • 232 views

在计算机视觉领域，理论与实践之间往往存在着难以逾越的鸿沟。一个旨在通过照片识别笔记本电脑物理损伤的项目，便深刻体现了这一点。该项目起初看似简单明了：构建一个模型，使其能够观察笔记本电脑的照片，并识别出任何物理损伤，如屏幕碎裂、按键缺失或铰链损坏等。然而，随着项目的推进，团队遇到了诸多预料之外的挑战，这些挑战不仅关乎技术，更涉及到模型的理解与应用。

‌一、项目的起点：单一提示的困境‌

项目的初步尝试遵循了多模态模型的标准方法。团队使用了一个大型的单一提示，将图像输入到具有图像处理能力的语言大模型中，并要求其识别可见的损伤。这种方法在实施上相对简单，对于清晰且定义明确的任务也能表现出不错的效果。然而，现实世界的数据往往复杂多变，远远超出了理论模型的预设范围。

团队很快便遇到了三大核心问题：

‌幻觉现象‌：模型有时会虚构出并不存在的损伤，或者错误地标记它所观察到的内容。
‌垃圾图像检测失效‌：模型无法可靠地识别出与笔记本电脑无关的图像，如桌面、墙壁或人物的照片，这些图像偶尔会混入数据集，导致模型产生毫无意义的损伤报告。
‌准确性不稳定‌：上述问题的结合使得模型的准确性大打折扣，无法满足实际运营的需求。

‌二、首次调整：混合图像分辨率的尝试‌

团队注意到图像质量对模型输出的影响显著。用户上传的图像种类繁多，从清晰的高分辨率图像到模糊的图像应有尽有。基于这一点，团队参考了关于图像分辨率对深度学习模型影响的研究，决定使用混合高分辨率和低分辨率的图像来训练和测试模型。这一策略旨在提高模型对不同图像质量的适应性。虽然这一调整在一定程度上提高了模型的一致性，但幻觉问题和垃圾图像处理问题依然存在。

‌三、多模态的歧途：文本模型的多模态探索‌

受到近期将图像配文与纯文本语言模型相结合的实验鼓舞，团队决定尝试这一方法。该过程大致如下：

语言大模型首先为图像生成多个可能的配文。
另一个名为多模态嵌入模型的工具检查每个配文与图像的匹配程度。在这个案例中，团队使用了SigLIP来评估图像与文本之间的相似性。
系统根据得分保留前几个配文。
语言大模型利用这些顶级配文生成新的配文，试图更准确地反映图像的实际内容。
这一过程重复进行，直到配文不再改进或达到预设的限制。

尽管这一方法在理论上看似巧妙，但在实际应用中却引入了新的难题：

持续的幻觉现象：配文本身有时会包含虚构的损伤，语言大模型随后会自信地报告这些损伤。
覆盖不全：即使有多个配文，仍有一些问题被完全忽略。
复杂性增加，效益有限：额外的步骤使系统更加复杂，却没有可靠地超越之前的设置。

‌四、创造性运用代理框架‌

此时，团队决定采取一个转折点。虽然代理框架通常用于协调任务流（如代理协调日历邀请或客户服务行动），但团队想知道，将图像解释任务分解为更小、更专业的代理是否会有所帮助。

团队构建了一个结构化的代理框架：

‌协调代理‌：检查图像并识别可见的笔记本电脑组件（屏幕、键盘、底盘、端口）。
‌组件代理‌：专门的代理检查每个组件以识别特定的损伤类型，例如屏幕碎裂或按键缺失。
‌垃圾检测代理‌：一个单独的代理负责判断图像是否为笔记本电脑。

这种模块化、任务驱动的方法产生了更精确且可解释的结果。幻觉现象大幅减少，垃圾图像被可靠地标记，每个代理的任务都足够简单和集中，从而能够很好地控制质量。

然而，这种方法并非完美无缺。它增加了延迟，因为需要运行多个顺序代理。此外，代理只能检测到它们被明确编程去识别的问题。如果图像显示了某个未被任何代理识别为检测目标的意外内容，它将被忽略。

‌五、混合解决方案：结合代理与单一提示方法‌

为了弥补这些缺陷，团队创建了一个混合系统：

代理框架首先运行，精确检测已知的损伤类型和垃圾图像。为了减少延迟，团队限制了代理的数量，只保留了最关键的代理。
然后，一个单一的图像语言大模型提示扫描图像，以查找代理可能遗漏的任何内容。
最后，团队使用一组针对高优先级用例（如频繁报告的损伤场景）精选的图像对模型进行了微调，以进一步提高准确性和可靠性。

这种结合为团队提供了代理设置的精确性和可解释性、单一提示方法的广泛覆盖性以及针对性微调带来的信心增强。

‌六、项目总结与教训‌

通过这个项目，团队收获颇丰：

代理框架的灵活性超乎想象：尽管通常与工作流程管理相关联，但团队发现，当以结构化和模块化的方式应用时，它们可以显著提升模型性能。
综合多种方法优于单一依赖：将精确的基于代理的检测与广泛覆盖的语言大模型相结合，再加上关键的微调，产生的结果远胜于任何单一方法。
视觉模型易于产生幻觉：即使是最先进的设置也可能草率下结论或看到不存在的东西。需要一个周到的系统设计来抑制这些错误。
图像质量至关重要：使用清晰的高分辨率图像和日常的低质量图像进行训练和测试，有助于模型在面对不可预测的真实世界照片时保持韧性。
垃圾图像检测必不可少：对垃圾或无关图片的简单检查是团队所做的最简单更改之一，但它对整体系统可靠性的影响却不成比例地大。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/cong-huan-jue-dao-ying-jian-yi-ge-ji-suan-ji-shi-jue-xiang

代理框架图像质量多模态探索幻觉现象教训模块化方法混合解决方案计算机视觉项目总结项目挑战

Like (0)

王浩然作者

0 0

AI代理遭遇责任壁垒，Mixus计划引入人类监督者破解高风险流程难题‌

Previous 2025年7月7日

身份盗窃案件激增，认证疲劳日益严重‌

Next 2025年7月7日

AI前沿

调查显示 CEO 预计生成式人工智能将带来重大影响

NTT Data 的一份新报告发现，一项新的行业调查显示，几乎所有商业领袖都表示他们已经对生成式人工智能进行了投资，另有 83% 的商业领袖已经建立了专门从事该技术的专家或强大的团…

王浩然
2024年12月2日
000
AI前沿

本地 AI 模型：如何在不丢失数据的前提下掌控竞价流

在程序化广告领域应用 AI 时，性能与数据安全是两大核心诉求。当前，众多企业内部安全审计已将第三方 AI 服务列为风险暴露点，向第三方 AI 智能体开放专有竞价流数据会带来不必要的…

王浩然
2025年11月22日
000
AI前沿

Google虚拟卫星AlphaEarth如何重新定义全球地球测绘‌

我们正见证地理空间技术的革命性突破。Google最新推出的虚拟卫星系统AlphaEarth正在彻底改变人类对地球的认知方式，通过融合人工智能、量子计算与分布式传感网络，构建出前所未…

王浩然
2025年8月10日
000
AI前沿

Box 继续拓展数据共享以外的业务，推出代理驱动的企业 AI 工作室和无代码应用程序

对于许多企业来说，Box是一个知名的文件共享和数据协作应用程序。尤其是过去一年，Box 凭借其在生成式 AI 方面的努力，取得了长足进步。如今，这些努力正通过技术获得巨大推动，…

王浩然
2024年11月13日
000
AI前沿

Pika 2.0 继 Sora 之后推出，将用户自己的角色、物体和场景整合到新的 AI 视频中

Pika是一家总部位于帕洛阿尔托的初创公司，也是创造逼真的 AI 视频生成工具的早期领导者之一，它推出了最新的 AI 视频生成器模型 Pika 2.0，它称这是一次重大更新，承诺为…

王浩然
2024年12月16日
000
AI前沿

亚马逊携手AI机器人，开启仓库自动化新纪元

亚马逊与机器人软件公司Covariant签署了一项新的商业协议，包括聘用该公司的员工，以加速其仓库的自动化进程。通过新协议，亚马逊将获得 Covariant 机器人基础模型的非…

点点
2024年9月7日
000
AI前沿

Scope3 开始追踪人工智能的碳足迹

是香蕉起了作用。布莱恩·奥凯利 (Brian O’Kelley) 最近以 16 亿美元的价格将他之前的创业公司广告平台 AppNexus 卖给了 AT&T。在…

王浩然
2024年10月12日
000
AI前沿

特斯拉的“We, Robot”活动：Robovan 透露 Cybercab 的回顾

特斯拉的“We, Robot”活动已经结束，但仍有许多事情需要关注。特斯拉宣称 Cybercab 是自动驾驶交通的未来，据透露，该车是双座车，售价不到 30,000 美元。随后…

王浩然
2024年10月12日
000
AI前沿

因果 AI 如何最终构建具备推理能力的 AI 模型，而非仅能被动响应

2025 年 10 月 29 日，特欣・齐亚博士（Dr. Tehseen Zia）发表深度分析指出，数十年来，人工智能虽在数据模式识别领域表现卓越 —— 无论是预测客户行为、预判市…

王浩然
2025年10月30日
000
AI前沿

一些初创公司正在采用“fair source”来避免开源许可的陷阱

由于专有软件和开源软件（OSS）之间长期存在的紧张关系短期内不太可能结束，一家价值 30 亿美元的初创公司正全力支持一种新的许可模式 — — 该模式旨在连接开放世界和专有世界，充满…

点点
2024年9月23日
000
AI前沿

北美企业中智能体 AI 自主性持续提升，推动 IT 运营转型与商业价值重构

北美企业正加速部署具备推理、自适应与完全自主行动能力的智能体 AI（Agentic AI）系统，其发展路径与欧洲企业形成鲜明差异 —— 北美聚焦 “自主性规模化”，欧洲则侧重 “治…

王浩然
2025年12月4日
000
AI前沿

Meta 的 Llama 3.2：利用设备端和多模式功能重新定义开源生成式 AI

Meta 最近推出了 Llama 3.2 ，这是其 Llama 系列大型语言模型的最新版本，是开源生成式 AI 生态系统发展的重要进展。此次升级在两个维度上扩展了 Llama 的功…

点点
2024年9月28日
000
AI前沿

谷歌云推出托管 Slurm 的 Vertex AI Training：瞄准企业级 AI 训练，直面 CoreWeave 与 AWS 竞争

2025 年 10 月 27 日，谷歌云正式发布全新企业级 AI 训练服务 Vertex AI Training，核心通过提供托管 Slurm 环境、全栈数据科学工具及多类型芯片支…

王浩然
2025年10月28日
000
AI前沿

Figma 收购特拉维夫 AI 初创公司 Weavy，全力打造媒体生成新平台

设计工具领域传来重要消息，知名设计平台 Figma 宣布收购位于特拉维夫的 AI 媒体生成初创公司 Weavy。此次收购不仅将 Weavy 这支富有创新力的团队纳入 Figma 的…

王浩然
2025年11月3日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

前谷歌CEO泄露AI高级机密，英伟达将引爆“抢购潮”

上个周末，前谷歌CEO 埃里克·施密特在斯坦福大学进行了一场关于如果更智能的重要讲座，在不知道全程直播的情况下泄露了“AI行业的高级机密”，其中就包括了英伟达接下来的重磅利好消息。…

点点
2024年8月21日
000
AI前沿

CrowdStrike推出Charlotte AI Detection Triage平台

CrowdStrike推出Charlotte AI Detection Triage平台 1. **平台概述**：CrowdStrike推出Charlotte AI Detecti…

王浩然
2025年2月14日
000
AI前沿

如何提示 OpenAI 的新 o1 模型

OpenAI的最新模型系列o1有望比以前的模型更强大、推理能力更强。使用 GPT-o1 与提示 GPT-4 甚至 GPT-4o 略有不同。由于此模型具有更多的推理能力，因此一些…

王浩然
2024年9月15日
000
AI前沿

AI的生态进化：模应一体的终结与新商业逻辑的诞生

9 月 4 日，文心一言大模型的移动端应用发布了 4.0.0 版本，最大的改动是 App 名字从“文心一言”改名为“文小言”；同一天，支付宝旗下 AI 应用“支小宝”最新版本也正式…

点点
2024年9月7日
000
AI前沿

奥德赛AI模型：将视频转化为交互世界的创新突破‌

在人工智能（AI）技术飞速发展的今天，我们不断见证着前所未有的创新与应用。近期，一款名为“奥德赛”的AI模型横空出世，以其独特的能力将视频内容转化为交互式的虚拟世界，这一革命性的进…

王浩然
2025年6月1日
000

发表回复

Please Login to Comment

从幻觉到硬件：一个计算机视觉项目曲折历程中的教训‌

相关推荐

发表回复