弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐

mogoec 2026-04-25

342

本文保留原文核心逻辑、章节结构和关键术语，适合跨境电商、搜索推荐、AI购物助手、站内搜索产品经理阅读。论文题为 《弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐》，作者来自 Amazon，发表于 ACM SIGIR Forum，arXiv 版本为 2024 年 7 月。论文的核心观点是：电商搜索不应只展示商品，还应在用户搜索过程中主动推荐与购买决策相关的“问题—答案”组合，帮助用户更快明确需求并完成购买。原文下载网址：https://arxiv.org/pdf/2407.09653

论文标题翻译

弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐

这篇论文不是传统实验型论文，而是一篇观点论文。作者讨论的是一个正在变得很重要的方向：当用户在电商平台搜索商品时，系统不仅要理解“用户想买什么”，还要理解“用户为了做决定还需要知道什么”。比如用户搜索咖啡机，很多时候并不是马上下单，而是还想知道单杯咖啡机和传统咖啡机有什么区别、清洗是否方便、适合什么场景。论文认为，大语言模型的发展让电商搜索系统有机会把商品搜索和问答系统结合起来。

摘要意译

核心摘要

消费者在网上购物时，往往会同时使用两类系统：一类是电商平台里的商品搜索，另一类是网页搜索、问答系统等信息检索工具。商品搜索可以帮助用户找到目录中符合需求的产品，而信息检索系统则帮助用户回答购买前的疑问，从而进一步明确自己的需求。随着大语言模型的发展，把对话式问答能力嵌入商品搜索系统，正在成为一种新的机会。论文提出，可以根据用户当前的商品搜索行为，向用户推荐相关的“问题—答案”组合，帮助他们更快做出购买决策。作者进一步讨论了这类问答对的要求、生成方法、质量控制、推荐优化方式，以及未来研究中仍然需要解决的问题。

引言翻译

搜索割裂

目前，大多数在线购物用户在购买商品时，实际上会在两个系统之间来回切换：一个是电商平台的商品搜索系统，另一个是信息检索系统，例如搜索引擎或问答系统。电商搜索建立在商品目录之上，主要帮助用户浏览产品、查看商品信息，并最终完成购买。信息检索系统则用来补充商品搜索，因为用户在很多时候并不了解产品知识，无法单靠商品列表做出有把握的购买决策。

决策成本

这种购物流程并不高效。第一，用户未必知道该问什么问题。比如一个新手想买榨汁机，可能不知道自己真正需要比较的是离心式、冷压式、进料口大小、清洗难度还是噪音。第二，独立的信息检索系统通常无法完整理解用户在电商平台里的上下文，例如用户正在看的商品详情页、搜索结果页，或已经筛选过的产品集合。因此，用户经常需要在商品搜索和信息搜索之间反复切换，才能逐步明确需求并做出购买决策。

论文主张

作者提出一种新的商品搜索范式：在商品搜索系统的不同位置，主动向用户推荐相关的问答对。这样做的目的，是让用户在不离开购物场景的情况下，低成本获得影响购买决策的重要信息。论文还指出，这个方向已经开始落地，例如 Amazon 在 2024 年 2 月推出的 Rufus 对话式购物体验，就体现了把问答能力引入购物流程的趋势。

购物旅程与问答推荐

三个阶段

论文把在线购物过程分成三个阶段。第一是探索阶段，用户刚开始了解产品空间，还在学习和调整自己的需求。第二是比较阶段，用户已经缩小需求范围，开始比较多个符合条件的商品。第三是最终考虑阶段，用户已经聚焦少数商品，会提出更具体的问题来决定是否购买。

三个入口

不同购物阶段，对应不同的问答推荐入口。第一类是搜索框自动补全阶段，用户输入关键词时，系统推荐较宽泛、探索型的问题。第二类是搜索结果页，也就是 SERP 问答推荐，系统在商品列表中嵌入与当前搜索结果相关的问题，类似搜索引擎里的“People Also Ask”。第三类是商品详情页问答推荐，系统围绕某个具体商品推荐更细的问题，例如是否容易清洗、尺寸是多少、配件是否可放入洗碗机。

示例理解

论文给出的例子很直观。用户只输入“coffee”时，系统可以推荐“咖啡机有哪些类型”“如何为自己的空间选择咖啡桌”“现在流行什么咖啡杯”。当用户搜索“single cup coffee machine”时，问题就可以变成“单杯咖啡机如何工作”“需要哪些维护”“它和传统咖啡机有什么区别”。当用户进入某款具体咖啡机详情页时，问题则可以进一步具体到“是否容易清洗”“尺寸是多少”“托盘是否可调”。

问答内容要求

问题意图

论文把电商问答中的问题意图分为多类，包括产品属性、商品比较、通用知识、最佳选择、使用方法、价格与配送等交易信息、用户主观评价，以及基于条件的商品推荐。比如“这款咖啡机电压是多少”属于产品属性问题；“单杯咖啡机和传统咖啡机有什么区别”属于比较问题；“新手适合买哪种榨汁机”则更接近推荐类问题。

问题标准

一个好的推荐问题，首先要和当前上下文相关。如果用户正在看冷压榨汁机，系统不应突然推荐与空气炸锅相关的问题。其次，问题必须对当前购物阶段有帮助。探索阶段的问题可以宽一些，详情页问题则应该更具体。再次，问题要有适当的具体度，既不能太空泛，也不能超出用户当前理解范围。最后，问题要简洁，因为电商页面尤其是移动端屏幕空间有限，用户注意力也很短。

答案标准

答案的最低要求是事实正确。论文特别强调，用户会根据这些答案做购买决策，如果错误信息导致错误购买，用户会失去对系统的信任。其次，答案必须始终服务于购物场景。比如用户问“意式浓缩和滴滤咖啡有什么区别”，答案不仅要解释区别，也可以进一步引导用户理解对应的咖啡机类型。再次，答案要根据问题意图选择合适的信息源：主观问题更依赖用户评论，产品参数问题更依赖商品目录。

问答如何生成

传统局限

以往相关研究常用查询日志挖掘用户常问问题，再基于相关文档生成答案。但在电商搜索里，这种方法存在明显局限。电商用户通常输入的是关键词，而不是完整问题，比如“冷压榨汁机”“咖啡机单杯”，这与网页搜索中的自然语言提问不同。与此同时，电商搜索系统主要建立在商品目录上，并不总是容易访问外部知识。

LLM生成

因此，论文主张使用大语言模型生成问答对。大模型可以利用自身知识，也可以结合输入上下文生成问题和答案。上下文可以包括搜索词、搜索结果页里的商品、商品详情页、用户评论、产品规格以及外部知识。对于商品详情页来说，评论、参数和相关知识都可以帮助模型生成更贴近购买决策的问题。(arXiv)

可控生成

论文同时指出，问答生成不是简单地让模型“随便生成几个问题”。系统需要控制问题的意图、具体度和使用场景。比如搜索结果页的问题生成提示词，应该不同于商品详情页的问题生成提示词。如果某些意图是强领域相关的，仅靠提示词可能不够，还可能需要对大语言模型进行进一步微调。

RAG答案

对于答案生成，论文认为检索增强生成，也就是 RAG，是一个有前景的方法。关键在于，不同问题应检索不同证据。主观类问题更适合调用用户评论，产品属性类问题更适合调用商品目录。理论上可以把所有信息源都交给模型，但这会带来输入长度、延迟和噪声问题。因此，更现实的方案是先对问题进行分类，再为不同问题选择不同检索来源。

个性化方向

论文还提出，理想的问答推荐系统应该具备个性化能力。系统可以根据用户的背景知识、兴趣和过往购买记录，推荐更适合他的问答内容。比如资深咖啡用户和新手用户在搜索咖啡机时，需要的问题并不一样。前者可能关注萃取压力、温控和维护成本，后者可能更关心是否容易操作、是否好清洗。

成本挑战

LLM 问答推荐系统在生产环境中还会面临延迟和成本问题。大模型推理成本高、响应慢，直接在线生成所有问答并不现实。论文提出的解决思路包括：对高频问题进行缓存，对头部流量提前离线生成问答，再在线进行排序和推荐。

评估与质量控制

质量机制

如果要在真实电商平台大规模部署问答推荐，质量控制非常关键。因为上下文规模很大，既包括海量商品，也包括搜索词和查询前缀。论文认为，可靠的质量控制应结合人工标注、自动化评估和线上用户行为信号。质量控制主要看两点：问题是否达到最低可接受标准，以及问题是否真的对用户有用。(arXiv)

基础指标

最低标准包括相关性、无幻觉、表达风格、信任与安全。相关性意味着问题必须和当前商品或搜索场景匹配，答案也必须回答对应问题。无幻觉意味着系统应尽量避免编造信息，并把幻觉比例控制在预设阈值内。表达风格要求问题自然、完整、简洁，并符合产品体验规范。信任与安全则要求系统不能生成冒犯性、不安全或损害用户信任的内容。

有用性评估

要判断问题是否有用，可以使用三类方法。第一是线上行为信号，例如点击、购买、加购等，但这些信号可能有噪声，也更适合头部流量。第二是 LLM 自动标注，优点是规模大，缺点是可能受到模型自身判断偏差影响。第三是人工标注，优点是更可靠，缺点是成本高，而且“有用性”本身具有主观性，因此需要多名标注员提升一致性。

数据集建设

论文还强调，要构建有代表性的评估数据集。采样时需要考虑商品类目、查询具体程度、商品热度，以及查询日志中的头部和长尾分布。理想情况下，应有两个评估集：一个是静态评估集，用于长期验证模型和系统变化；另一个是动态评估集，用于评估节假日、季节趋势和特殊事件带来的影响。

用户反馈与推荐优化

反馈信号

论文认为，如何利用用户反馈优化问答推荐，是未来很重要的问题。用户信号可以包括直接行为，例如点击问题、鼠标悬停问答组件；也可以包括间接行为，例如后续是否加购、是否购买。不过这些信号需要谨慎解释。比如探索阶段用户点击了一个科普问题，即使最后没有购买，也可能说明这个问题很有价值，因为用户当时本来就在学习产品知识。

排序方法

优化方法可以包括多目标排序、多臂老虎机、学习排序等传统推荐技术。但这些方法的不足是，它们通常只能选择已有问题，不能直接影响 LLM 生成新问题。论文提出，可以把高点击率问题作为示例反馈给模型，让模型生成新的候选问题。也可以使用 RLHF、DPO 等偏好优化方法，把用户参与数据转化为成对偏好，用于训练或优化生成策略。

数据稀疏

由于电商问答系统规模巨大，不同商品、搜索词和用户阶段都会形成大量上下文，因此数据稀疏是一个现实难题。很多上下文需要很长时间才能积累足够反馈。论文建议，可以先从头部流量开始优化，再逐步扩展到更多场景。另一个值得研究的方向，是使用大语言模型模拟用户，生成合成数据来辅助优化。

结论翻译

论文结论

这篇论文提出了一个面向在线购物体验的问答推荐愿景。大语言模型的成功，为连接信息检索系统和商品搜索系统提供了机会。通过在商品搜索流程中推荐合适的问答对，平台可以减少用户在搜索引擎和电商页面之间来回切换的成本，帮助用户更快获得购买决策所需的信息。不过，要在生产环境中部署这类系统，仍然需要解决问答生成可控性、排序优化、质量控制和延迟等问题。论文的价值在于，它为后续研究和工程实现提供了一份问题路线图。)

面向跨境电商的理解

平台启示

对亚马逊卖家、独立站运营和跨境平台产品团队来说，这篇论文的现实意义很强。未来电商搜索的竞争，不只是“谁的标题关键词更准”，而是“谁能在用户犹豫时提供最关键的决策信息”。如果平台开始主动推荐问答内容，那么商品参数、评论质量、FAQ、使用场景、对比解释、售后政策和内容结构，都会影响商品被 AI 购物助手理解和推荐的概率。

内容启示

卖家可以提前围绕用户真实问题布局内容。例如产品详情页不应只写功能卖点，还应补齐“适合谁”“不适合谁”“和同类产品有什么区别”“维护成本如何”“常见误解是什么”“用户最关心的缺点是什么”。这些内容不仅服务传统 SEO，也会成为未来 AI 问答推荐、站内搜索理解和购物助手回答的重要信息来源。

关注本站，每天分享跨境电商前沿资讯（ Ctrl + D 收藏本站/收藏为书签）

Bridging the Gap Between Information Seeking and Product Search Systems 亚马逊推广亚马逊运营墨攻推广MOGOEC 墨攻跨境弥合信息检索与商品搜索系统之间的鸿沟

未经允许不得转载：墨攻跨境MOGOEC » 弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐

弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐

论文标题翻译

弥合信息检索与商品搜索系统之间的鸿沟：面向电商的问答推荐

摘要意译

核心摘要

引言翻译

搜索割裂

决策成本

论文主张

购物旅程与问答推荐

三个阶段

三个入口

示例理解

问答内容要求

问题意图

问题标准

答案标准

问答如何生成

传统局限

LLM生成

可控生成

RAG答案

个性化方向

成本挑战

评估与质量控制

质量机制

基础指标

有用性评估

数据集建设

用户反馈与推荐优化

反馈信号

排序方法

数据稀疏

结论翻译

论文结论

面向跨境电商的理解

平台启示

内容启示

关注本站，每天分享跨境电商前沿资讯（ Ctrl + D 收藏本站/收藏为书签 ）

相关推荐

评论 ( 0 )

取消回复

跨境电商跨境头条资讯AI通识学习

关注本站，每天分享跨境电商前沿资讯（ Ctrl + D 收藏本站/收藏为书签）