书目
笔记大纲
- 文档
- 文档频率(document frequency),出现某词项的文档的数目
- 索引粒度(indexing granularity)
- 布尔检索
- 由布尔值构成的词项-文档关联矩阵
- 一个普遍问题就是采用 AND 操作符产生的结果正确率虽高但是召回率偏低,而采用 OR 操作符召回率高但是正确率低
- 接受布尔表达式查询,AND,OR,NOT
- 额外的运算方式:词项邻近(term proximity)
- 排序检索模型(ranked retrieval model)
- 往往是采用一个或者多个词来构成自由文本查询(free text query)
- 容错式检索
- 词典搜索的数据结构
- 通配符查询
- 拼写校正
- 文档评分
- 参数化索引
- 域索引
- 词项频率(term frequencey)
- 逆文档频率 idf(inverse document frequency)
- 向量空间模型(vector space model,简称VSM)
- 文档长度的回转归一化
- 检索系统中的评分
- 利用倒排记录表
- 非精确返回前 K 篇文档
- 查询词项的邻近性
- 搜索系统中自由文本查询的传递路径
- 利用向量空间模型实现查询操作
- 效果评价
- 黄金标准(gold standard)或绝对真理(ground truth)
- 无序检索结果集合的评价
- 有序检索结果的评价方法
- 相关性判定
- 系统质量及用户效用
- 结果片段(snippet)
- 链接分析
- PageRank
- 层次聚类
- 扁平聚类
- 聚类是无监督学习(unsupervised learning)的一种最普遍的形式
- 分类是监督学习的一种形式,其目标是对人类赋予数据的类别差异进行学习或复制
- 而在以聚类为重要代表的无监督学习当中,并没有这样的人来对类别的差异进行引导
- 聚类假设:在考虑文档和信息需求之间的相关性时,同一簇中的文档表现互相类似。
- 搜索结果聚类可以将相似的文档放在一起呈现。通常来说,浏览几个内容连贯的文档子集会比浏览一篇篇独立的文档更容易
- 聚类算法的主要应用
- 聚类算法的评价
- 机器学习
- 基于机器学习评分
- 基于机器学习的检索结果排序
- 概率检索模型
- BM25 权重计算机制(BM25 weighting scheme)或Okapi 权重计算机制(Okapi weighting)
- XML 检索
- 为结构化检索(structured retrieval)
- 挑战性问题
- 查询优化(query refinement)
- 布尔查询
- 全局方法
- 局部方法
- 索引压缩
- 优点
- 统计特性
- 词典压缩
- 倒排记录表压缩
- 索引构建
- 基于块的排序索引方法
- 内存式单遍扫描索引构建方法
- 分布式索引构建方法
- 动态索引构建方法
- 考虑文档对不同用户的可见性
- 倒排索引
- 每个词项都有一个记录出现该词项的所有文档的列表,该表中的每个元素记录的是词项在某文档中的一次出现信息
- 这个表中的每个元素通常称为倒排记录(posting)
- 每个词项对应的整个表称为倒排记录表(posting list)
- 所有词项的倒排记录表一起构成全体倒排记录表(postings)
- 每个倒排记录表存储了词项出现的文档列表,也可以存储一些其他信息,比如词项频率,词项在文档中出现的位置
- 二元词索引
- 词项
- 索引的单位
- 词条化(tokenization)
- 归一化
- 词项频率(term frequency,即词项在文档中出现的次数)
下方为 xmind 脑图的线上分享,如果没加载出来需要等一会会。