学习笔记——信息检索

书目

信息检索导论

笔记大纲

文档
- 文档频率（document frequency），出现某词项的文档的数目
- 索引粒度（indexing granularity）
布尔检索
- 由布尔值构成的词项-文档关联矩阵
- 一个普遍问题就是采用 AND 操作符产生的结果正确率虽高但是召回率偏低，而采用 OR 操作符召回率高但是正确率低
- 接受布尔表达式查询，AND，OR，NOT
- 额外的运算方式：词项邻近（term proximity）
排序检索模型（ranked retrieval model）
- 往往是采用一个或者多个词来构成自由文本查询（free text query）
容错式检索
- 词典搜索的数据结构
- 通配符查询
- 拼写校正
文档评分
- 参数化索引
- 域索引
- 词项频率（term frequencey）
- 逆文档频率 idf（inverse document frequency）
- 向量空间模型（vector space model，简称VSM）
- 文档长度的回转归一化
检索系统中的评分
- 利用倒排记录表
- 非精确返回前 K 篇文档
- 查询词项的邻近性
- 搜索系统中自由文本查询的传递路径
- 利用向量空间模型实现查询操作
效果评价
- 黄金标准（gold standard）或绝对真理（ground truth）
- 无序检索结果集合的评价
- 有序检索结果的评价方法
- 相关性判定
- 系统质量及用户效用
- 结果片段（snippet）
链接分析
- PageRank
层次聚类
扁平聚类
- 聚类是无监督学习（unsupervised learning）的一种最普遍的形式
- 分类是监督学习的一种形式，其目标是对人类赋予数据的类别差异进行学习或复制
- 而在以聚类为重要代表的无监督学习当中，并没有这样的人来对类别的差异进行引导
- 聚类假设：在考虑文档和信息需求之间的相关性时，同一簇中的文档表现互相类似。
- 搜索结果聚类可以将相似的文档放在一起呈现。通常来说，浏览几个内容连贯的文档子集会比浏览一篇篇独立的文档更容易
- 聚类算法的主要应用
- 聚类算法的评价
机器学习
- 基于机器学习评分
- 基于机器学习的检索结果排序
概率检索模型
- BM25 权重计算机制（BM25 weighting scheme）或Okapi 权重计算机制（Okapi weighting）
XML 检索
- 为结构化检索（structured retrieval）
- 挑战性问题
查询优化（query refinement）
- 布尔查询
- 全局方法
- 局部方法
索引压缩
- 优点
- 统计特性
- 词典压缩
- 倒排记录表压缩
索引构建
- 基于块的排序索引方法
- 内存式单遍扫描索引构建方法
- 分布式索引构建方法
- 动态索引构建方法
- 考虑文档对不同用户的可见性
倒排索引
- 每个词项都有一个记录出现该词项的所有文档的列表，该表中的每个元素记录的是词项在某文档中的一次出现信息
- 这个表中的每个元素通常称为倒排记录（posting）
- 每个词项对应的整个表称为倒排记录表（posting list）
- 所有词项的倒排记录表一起构成全体倒排记录表（postings）
- 每个倒排记录表存储了词项出现的文档列表，也可以存储一些其他信息，比如词项频率，词项在文档中出现的位置
- 二元词索引
词项
- 索引的单位
- 词条化（tokenization）
- 归一化
- 词项频率（term frequency，即词项在文档中出现的次数）

下方为 xmind 脑图的线上分享，如果没加载出来需要等一会会。

书目

笔记大纲

发表回复 取消回复

发表回复取消回复