搜索的链路
搜索的评价
曝光和点击
- 曝光: 用户在搜索结果页看到文档,计算曝光
- 文档点击:在曝光之后,用户点击文档,进入文档的详情页
- 文档点击率:文档点击总次数/文档曝光总次数
查询词点击率(有点比)
- 查询词点击:用户点击搜索结果页上任意一篇文档,就算"查询词点击"
- 查询词点击率(有点比):查询词点击总次数 / 搜索总次数
- 查询词首屏点击:用户点击搜索结果页首屏的任意一篇文档,就算"查询词首屏点击"
- 查询词首屏点击率(首屏有点比):查询词首屏点击总次数 / 搜索总次数
基础知识:用户满意度、评价指标、搜索链路。
相关性:定义与分档、评价指标、文本匹配、语义匹配。
查询词处理:分词、NER、词权重、类目、意图、改写。
召回:文本召回、向量召回、离线召回。
排序:排序模型、训练。
查询词推荐:推词场景、推词召回、推词排序。
相关性是查询词q和文档d两者的关系。
相关性是客观标准,不取决于用户u。 相关行是语义上的,不是字面上的。查询可能具有多个意图,只要命中主要意图就可以。
搜索的链路
查询
召回
- 文本召回:借助倒排索引,匹配q中的词和d中的词
- 向量召回:将q和d分别表征为向量xq和zd。给定xq,查找相似度高的zd
- KV召回:对于高频查询q,离线建立q → List(d)这样的key-value索引。线上直接读取索引,获取q相关的文档
给定查询词q,从文档库(数亿篇文档)中快速检索数万篇可能与q相关的文档{d}
排序
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 fanfer 🥰!
评论