
作为维基媒体旗下与维基百科互补的知识图谱项目,Wikidata 一直以结构化格式存储着海量多元信息 —— 从作家道格拉斯・亚当斯的星座(双鱼座)到其作品在全球图书馆的分类编号(13230702),这些数据既以网页形式供人类查阅,也通过 JSON 等机器可读格式面向技术开发者开放。如今,Wikidata 迎来重大升级:由德国维基媒体协会(Wikimedia Deutschland)主导的 “Wikidata Embedding Project”(维基数据嵌入项目)正式上线,通过构建全新 AI 友好型数据库,将 3000 万条维基数据条目转化为更易被大语言模型(LLM)吸收的向量格式,彻底改变了 AI 获取权威知识的方式,也为非科技巨头背景的开发者提供了平等的技术机遇。
此次升级的核心突破在于 “向量化转型”。过去一年,柏林研发团队借助 AI 公司 Jina AI 的模型,将原本结构零散的维基数据条目(如文本描述、关键词标签、关联信息等)转化为能捕捉上下文与语义关联的向量。这种向量化格式可形象理解为 “带节点与连接线的图谱”:以道格拉斯・亚当斯为例,其条目向量会与 “人类”“《银河系搭车客指南》作者” 等身份标签、作品名称形成关联链路,让 AI 不仅能获取单一信息,还能理解信息间的逻辑关系。IBM 旗下 DataStax 公司为该向量数据库提供了免费存储基础设施,确保数据可稳定访问。值得注意的是,当前数据库涵盖截至 2024 年 9 月 18 日的条目数据,团队计划在收集开发者反馈后,纳入过去一年新增的信息;而对于现有条目的小幅修改,项目负责人菲利普・萨德(Philippe Saadé)表示,向量格式捕捉的是条目 “核心语义”,这类微调不会影响数据库实用性。
从技术应用来看,新数据库彻底解决了传统维基数据访问的 “两难困境”。此前,Wikidata 的搜索工具存在明显局限:CirrusSearch 仅支持关键词匹配,难以理解查询背后的真实意图;SPARQL 虽能实现精准语义检索,但学习门槛极高,普通开发者难以掌握。而向量化数据库则融合了两者优势 —— 既保留了关键词搜索的便捷性,又能通过语义理解返回上下文相关结果,尤其适配 AI 领域的 “检索增强生成(RAG)系统”。例如,当 AI 需要回答 “科学家相关信息” 时,不仅能调取知名核科学家名单、贝尔实验室研究者列表,还能同步获取 “科学家” 的多语言翻译、官方授权图片,以及 “研究人员”“学者” 等关联概念,为 AI 输出提供权威、全面的知识支撑,大幅降低幻觉风险。
项目的核心目标是 “打破技术垄断,赋能中小开发者”。维基数据产品负责人莉迪亚・平切尔(Lydia Pintscher)指出,OpenAI、Anthropic 等科技巨头有足够资源自行处理维基数据,但大量中小型开发团队缺乏此类能力。新数据库相当于为他们提供了 “现成的高质量知识底座”,帮助其在 AI 研发中快速起步。 Govdirectory 平台便是典型案例 —— 该工具依托维基数据的志愿者 curated 数据,已实现全球公职人员社交媒体账号、邮箱的查询功能,证明了开放知识图谱的实用价值。同时,项目团队希望通过此举推动 AI 内容更多元化:当前多数 AI 聊天机器人倾向于优先呈现互联网热门话题,而维基数据中丰富的小众领域信息(如地方文化、冷门学科知识),能让 AI 更好地覆盖边缘话题,避免 “信息偏食”。
在用户体验与生态布局上,Wikidata 前端界面保持不变,普通用户查阅信息的方式不受影响,维基百科也不会转型为聊天机器人;后端则通过优化数据接口,让 AI 开发者能更便捷地调用数据,例如用于训练专属聊天机器人、开发实体识别工具等。数据库已在 Toolforge 平台公开上线,维基媒体计划于 10 月 9 日举办线上研讨会,指导开发者熟悉使用方法。此外,项目还支持 “模型上下文协议(MCP)”,这一标准能帮助 AI 系统与数据源高效通信,让 LLM 可通过自然语言直接查询维基数据,进一步降低技术门槛。
从行业意义来看,该项目恰逢 AI 开发者对高质量训练数据的迫切需求期。随着 AI 训练系统向 “组合型环境” 发展,对准确、可靠数据的依赖度显著提升。尽管部分人对维基数据的准确性存疑,但相比 Common Crawl 等庞杂的网络爬虫数据集,其经过志愿者编辑审核的信息显然更具事实基础。此前,Anthropic 公司曾为解决 AI 训练使用作家作品的法律纠纷支付 15 亿美元和解金,凸显优质数据的稀缺性与高价值。而 Wikidata Embedding Project 提供的免费、开放数据,不仅能降低开发者的成本与法律风险,更传递出 “AI 技术应开放协作” 的理念 —— 正如萨德所言:“强大的 AI 不必被少数公司掌控,它可以为所有人服务。”
未来,团队将根据开发者反馈优化数据库,包括扩充语言覆盖范围(目前已支持英语、法语、阿拉伯语等,计划年内新增更多语种)、缩短数据更新周期、强化来源追溯功能(让 AI 输出可直接关联维基数据原始条目)等。社区用户的意见也将影响数据排序、覆盖范围及检索质量评估标准的制定,确保项目始终贴合开发者与用户需求,持续推动开放知识在 AI 时代的价值释放。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ji-shu-ju-tui-chu-ai-you-hao-xing-shu-ju-ku-kai-fang