为 AI 赋予嗅觉:新型数据集与技术框架推动机器嗅觉突破

为 AI 赋予嗅觉:新型数据集与技术框架推动机器嗅觉突破

通过构建首个 “气味 – 图像关联数据集” 与创新技术框架,让 AI 首次具备在真实场景中 “感知并关联嗅觉与视觉” 的能力,填补了 AI 多模态感知领域中嗅觉研究的长期空白,为机器嗅觉从实验室走向工业化应用奠定了基础。

长期以来,嗅觉在 AI 研究中处于被忽视的状态。一方面,气味输出设备的发展历史曲折,导致行业对嗅觉 AI 的关注度远低于图像、音频等成熟领域;另一方面,尽管机器嗅觉在公共安全(如炸弹检测)、医疗健康(如疾病诊断)、市政服务(如危险气体监测)等领域存在巨大需求 —— 例如嗅探犬的检测能力虽强,但训练与维护成本高昂、供给远不能满足需求 —— 但此前相关研究多局限于实验室环境,依赖人工设计特征的数据集,更偏向定制化小范围解决方案,难以实现工业化推广。

此次研究的核心突破,在于构建了名为 “New York Smells” 的大规模多模态数据集,并提出 “对比嗅觉 – 图像预训练(COIP)” 框架。数据集通过在纽约市室内外环境(涵盖公园、大学建筑、办公室、街道、图书馆、公寓、餐厅等)开展 60 次数据采集会话,最终形成 7000 组 “气味 – 图像” 配对,涉及 3500 种不同物体,同时包含 70 小时视频及 19.6 万个嗅觉原始数据时间步(涵盖基线采样与目标采样阶段),其中 41% 数据来自户外环境,59% 来自室内环境。采集过程中,研究团队使用 Cyranose 320 电子鼻(作为 “嗅觉传感器”)与 iPhone 相机(同步捕捉视觉信息)组成手持设备,搭配 RGB-D 相机(获取深度数据)、MiniPID2 传感器(记录挥发性有机化合物 / VOC 浓度)及环境探针(监测温度、湿度),确保多维度数据的同步性与准确性。

为保证数据质量,研究采用严谨的采样流程:先记录 “基线气味” 以排除环境干扰,再用电子鼻 “探头” 对准目标物体采集两次 10 秒样本(从物体不同角度采集以提升数据有效性),最后结合基线数据形成 28×32 矩阵,完整呈现嗅觉测量结果。例如在采集花朵气味时,系统会同步记录花朵图像、周围环境温湿度、VOC 浓度变化,以及电子鼻 32 个化学传感器的电阻响应时间序列,最终生成包含视觉与嗅觉关联的完整数据单元。

技术框架层面,COIP 借鉴了广泛应用的 “对比语言 – 图像预训练(CLIP)” 思路,将 “文本 – 图像” 的关联逻辑创新拓展为 “嗅觉 – 图像” 关联。通过跨模态自监督学习,模型同时训练视觉编码器与嗅觉编码器,目标是让匹配的气味与图像在共享表征空间中距离更近。这种设计使模型能支持多种下游任务:一是 “气味 – 图像检索”,仅通过气味查询即可匹配到对应的视觉图像;二是 “场景、物体与材质识别”,仅依靠嗅觉数据就能判断所处环境类型、物体类别及材质属性;三是 “精细气味区分”,即使是视觉相似的物体(如两种青草),也能通过嗅觉差异精准辨别。

在模型训练与测试中,研究团队对比了两种嗅觉输入数据的效果:一种是 “嗅觉印记(smellprints)”—— 传统嗅觉研究中常用的人工设计特征,通过对比采样时传感器峰值电阻与基线平均电阻,将每个传感器响应压缩为单一数值;另一种是电子鼻记录的 “原始嗅觉信号”——32 个化学传感器随时间变化的电阻响应序列。测试结果显示,基于原始信号训练的模型在各项任务中均显著优于依赖人工特征的模型:在跨模态检索任务中,原始信号使模型能更精准地通过气味匹配图像,且检索结果呈现明显语义关联(如书本气味对应书本图像、树叶气味对应植物图像);在 “仅靠嗅觉识别场景、物体、材质” 任务中,使用原始数据的 CNN 模型场景识别准确率高达 99.5%;在区分两种相似青草气味的精细任务中,结合自监督学习(SSL)的原始信号模型准确率达到 92.9%,远超嗅觉印记模型。

研究团队指出,原始嗅觉信号之所以表现更优,核心在于其保留了更丰富的时间维度信息与传感器响应细节,能捕捉到人工设计特征难以涵盖的细微气味差异,从而实现更强的跨模态关联与识别能力。例如,在检测塑料与皮革材质时,原始信号能记录传感器对两种材质 VOC 释放速率的不同响应曲线,而嗅觉印记仅能体现单一数值差异,无法区分这种动态特征,导致识别准确率差距显著。

尽管目前气味合成仍面临技术难题,但研究团队认为,此次成果为 “野外场景嗅觉检测系统” 的发展奠定了基础。这种系统未来不仅可应用于公共安全(如替代嗅探犬进行危险物品检测)、医疗健康(如通过气味早期筛查疾病),还能服务于生活质量提升(如食品新鲜度监测)与城市管理(如环境异味溯源)。不过,当前设备仍存在成本高、应用场景较窄的问题,未来需开发类似树莓派(Raspberry Pi)的低成本、通用型嗅觉传感器,才能推动机器嗅觉技术的大规模普及。

结合补充信息来看,此次研究与行业内其他机器嗅觉探索形成呼应与互补。例如汉王科技研发的 AINose® 嗅觉分析仪,通过模拟人类嗅觉受体机理赋予机器嗅觉能力,在爆炸物识别(2 分钟内完成检测,准确率媲美嗅探犬)、白酒品质分级、肿瘤标志物检测(灵敏度达纳摩尔级)等领域已实现商业化突破,其技术路径虽与 “New York Smells” 数据集依赖的 “嗅觉 – 视觉关联” 不同(更侧重仿生嗅觉受体与 AI 算法结合),但共同推动了机器嗅觉从 “理论研究” 向 “实际应用” 落地;而谷歌关联公司 Osmo 此前开发的 AI 模型,通过分析化学分子结构预测气味描述,虽聚焦于 “分子结构 – 气味语言” 关联,与本次 “嗅觉信号 – 视觉图像” 关联的研究方向不同,但均验证了 AI 在嗅觉领域的多元化应用潜力。

总体而言,“New York Smells” 数据集与 COIP 框架的推出,不仅填补了机器嗅觉大规模数据的空白,更创新了 “嗅觉 – 视觉” 跨模态关联的技术路径,为 AI 多感官融合感知提供了新范式。随着后续低成本传感器的研发与数据集的持续完善,机器嗅觉有望像视觉、听觉 AI 一样,成为支撑公共安全、医疗健康、城市管理等领域的核心技术,真正实现 “让机器感知气味” 的工业化应用。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ai-fu-yu-xiu-jue-xin-xing-shu-ju-ji-yu-ji-shu-kuang-jia

Like (0)
王 浩然的头像王 浩然作者
Previous 2天前
Next 1天前

相关推荐

发表回复

Please Login to Comment