
LinkedIn 正式推出 AI 驱动的人员搜索功能,这一举措距离 ChatGPT 发布已过去三年,距其自身 AI 职位搜索功能上线也有六个月。对技术管理者而言,这一时间线揭示了企业级生成式 AI 部署的核心挑战:在 13 亿用户的超大规模场景下,AI 落地并非一蹴而就,而是需要经过缓慢且严苛的务实优化过程。该功能的推出,不仅重塑了 LinkedIn 的搜索体验,更凝结出一套可复制的 “AI 食谱(Cookbook)”,为企业级 AI 从试点走向亿级用户规模提供了技术蓝图。
从功能体验来看,新的 AI 人员搜索彻底摆脱了传统关键词搜索的局限。用户可输入自然语言查询(如 “谁精通癌症治疗相关知识”),系统能通过底层大语言模型(LLM)理解语义意图,而非仅匹配字面关键词。例如,它能识别 “癌症(cancer)” 与 “肿瘤学(oncology)”“基因组学研究(genomics research)” 的概念关联,即使专业人士的个人资料中未出现 “癌症” 一词,也能将肿瘤学领域的领导者与研究者纳入搜索结果。更重要的是,系统在 “相关性” 与 “实用性” 间实现平衡:不会只推送遥不可及的顶级专家(如三度人脉以外的权威),还会优先推荐用户直接人脉圈中 “具备一定相关性” 的联系人(如一度人脉中的相关从业者),这些人可作为连接专家的关键桥梁,大幅提升搜索结果的实际价值。而在旧有搜索模式下,用户需分别搜索 “癌症”“肿瘤学” 等关键词并手动整合结果,效率与精准度均大幅落后。
LinkedIn 的核心突破,在于其打造的 “多阶段、可复制”AI 食谱,这一流程源于 AI 职位搜索的成功实践,并经过人员搜索的规模化验证。早期,LinkedIn 曾试图构建覆盖全产品的统一 AI 系统,却因 “目标过于庞杂” 导致进展停滞。此后团队转变策略,先聚焦单一垂直领域突破:AI 职位搜索功能不仅实现了商业价值(帮助无四年制学位的求职者聘用概率提升 10%),更沉淀出一套包含 “数据构建、模型蒸馏、多模型协同” 的标准化流程。这套流程的核心逻辑是 “先精后广”—— 在单一领域验证可行性后,再逐步迁移至更复杂的场景,而人员搜索正是其向 “超大规模(13 亿用户图谱)” 发起的挑战。
在技术实现上,该食谱围绕 “数据 – 模型 – 架构” 三层展开,每一步均针对规模化痛点优化。首先是 “黄金数据集与合成数据生成”:团队先构建数百至数千条 “真实查询 – 个人资料匹配” 的黄金数据集,并依据 20-30 页的详细产品政策文档进行精准评分;随后,利用这一小规模黄金数据集,驱动基础大模型生成海量合成训练数据,进而训练出 70 亿参数的 “产品政策模型”。该模型虽能高精度判断搜索相关性,却因速度过慢无法直接用于生产,转而承担 “教师模型” 角色,为后续轻量化模型提供训练依据。
模型层面的关键创新在于 “多教师蒸馏架构”。早期团队曾花费 6-9 个月尝试训练单一模型,却始终无法平衡 “严格政策合规(相关性)” 与 “用户互动信号(如连接、关注行为)”。最终解决方案是 “拆分任务、协同优化”:将 70 亿参数的政策模型蒸馏为 17 亿参数的 “相关性教师模型”,专注于判断搜索结果是否符合政策与语义需求;同时训练独立的 “行为预测教师模型”,针对人员搜索场景预测用户可能的互动行为(如发送连接请求、关注操作)。这些教师模型会输出软概率分数,最终的 “学生模型” 通过 KL 散度损失函数学习并模仿这些分数,实现 “相关性” 与 “互动性” 的融合。
架构设计上,系统采用 “两阶段流水线” 应对规模化挑战。第一阶段由 80 亿参数的模型负责 “广度检索”,从 13 亿用户图谱中广泛筛选候选结果,确保覆盖足够多的潜在匹配;第二阶段由轻量化学生模型负责 “精细排序”,在保证速度的同时提升结果精准度。为适配人员搜索的超大规模,团队对模型进行了极致压缩:参考职位搜索中 6 亿参数学生模型的成功经验,进一步将人员搜索的学生模型从 4.4 亿参数剪枝至 2.2 亿参数,最终实现 “13 亿用户场景下响应速度达标,相关性损失不足 1%” 的目标。此外,团队还解决了检索层的架构瓶颈 —— 此前职位搜索的检索依赖 CPU 基础设施,而人员搜索需处理百亿级记录,团队不得不将索引系统迁移至 GPU 架构,这一基础性调整为 “流畅搜索体验” 提供了硬件支撑。
效率优化是规模化落地的另一关键。为提升模型吞吐量,团队开发了基于强化学习(RL)的 “输入摘要模型”,专门用于压缩搜索查询的输入上下文,在信息损失极小的前提下,将输入规模缩减 20 倍。结合 2.2 亿参数的轻量化模型,最终实现排序吞吐量提升 10 倍,确保系统能高效服务海量用户。这种 “务实优化优先于技术噱头” 的思路贯穿始终:LinkedIn 产品工程副总裁 Erran Berger 强调,当前企业级 AI 的核心价值在于完善推荐系统,而非追逐 “智能体(Agent)热潮”;团队选择模型的唯一标准是 “任务效率”,而非技术热度,这种务实态度使其避开了许多企业级 AI 常见的 “技术空转” 陷阱。
从组织协作来看,跨团队经验迁移加速了人员搜索的落地。早期 LinkedIn 曾让职位搜索与人员搜索团队并行探索,但在职位搜索团队通过 “政策驱动的蒸馏方法” 取得突破后,管理层迅速调动该团队的核心架构师(产品负责人 Rohan Rajiv 与工程负责人 Wenjing Zhang),将 “AI 食谱” 直接移植到人员搜索领域,避免了重复造轮子,大幅缩短了研发周期。这种 “单点突破 – 经验复用” 的组织模式,也成为 LinkedIn AI 规模化的重要保障。
对企业级 AI 实践者而言,LinkedIn 的经验提炼出三大核心启示:一是 “务实聚焦”,避免试图一次性覆盖所有场景,应先在单一垂直领域验证流程并沉淀经验;二是 “流程固化”,将成功实践转化为包含 “数据标准、模型步骤、优化方法” 的可复制食谱,减少后续项目的试错成本;三是 “极致优化”,亿级规模的突破往往来自细节创新,如模型剪枝、输入压缩、架构迁移等,这些看似微小的调整,正是决定 AI 能否落地的关键。
目前,LinkedIn 计划将这套食谱进一步推广至其他产品线,并为未来的智能体应用奠定基础。正如 Berger 所言,“智能体的价值取决于其背后工具的质量”—— 当前的 AI 人员搜索虽定位为 “工具”,但其精准的检索与排序能力,未来将成为 LinkedIn 智能体服务的核心支撑。而对整个行业而言,这套从 13 亿用户规模中淬炼出的 AI 食谱,为企业级生成式 AI 的规模化落地提供了 “从 0 到 1 再到亿” 的清晰路径,证明超大规模 AI 的成功,不在于追求尖端模型,而在于对 “数据、模型、架构” 每一个环节的务实打磨。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/linkedin-sheng-cheng-shi-ai-shi-pu-jie-mi-ru-he-jiang-ren