搜索的评价

截屏2025-01-07 16.22.44.png

曝光和点击

  • 曝光: 用户在搜索结果页看到文档,计算曝光
  • 文档点击:在曝光之后,用户点击文档,进入文档的详情页
  • 文档点击率:文档点击总次数/文档曝光总次数

查询词点击率(有点比)

  • 查询词点击:用户点击搜索结果页上任意一篇文档,就算"查询词点击"
  • 查询词点击率(有点比):查询词点击总次数 / 搜索总次数
  • 查询词首屏点击:用户点击搜索结果页首屏的任意一篇文档,就算"查询词首屏点击"
  • 查询词首屏点击率(首屏有点比):查询词首屏点击总次数 / 搜索总次数

基础知识:用户满意度、评价指标、搜索链路。

相关性:定义与分档、评价指标、文本匹配、语义匹配。

查询词处理:分词、NER、词权重、类目、意图、改写。

召回:文本召回、向量召回、离线召回。

排序:排序模型、训练。

查询词推荐:推词场景、推词召回、推词排序。

相关性是查询词q和文档d两者的关系。

相关性是客观标准,不取决于用户u。 相关行是语义上的,不是字面上的。查询可能具有多个意图,只要命中主要意图就可以。

搜索的链路

截屏2025-01-10 11.09.12.png

查询

截屏2025-01-10 11.11.37.png

召回

  • 文本召回:借助倒排索引,匹配q中的词和d中的词
  • 向量召回:将q和d分别表征为向量xq和zd。给定xq,查找相似度高的zd
  • KV召回:对于高频查询q,离线建立q → List(d)这样的key-value索引。线上直接读取索引,获取q相关的文档

给定查询词q,从文档库(数亿篇文档)中快速检索数万篇可能与q相关的文档{d}

截屏2025-01-11 14.06.08.png

截屏2025-01-11 14.07.26.png

截屏2025-01-11 14.08.10.png

排序

截屏2025-01-11 14.11.00.png

截屏2025-01-11 14.11.43.png