学习笔记——信息检索

书目

笔记大纲

  • 文档
    • 文档频率(document frequency),出现某词项的文档的数目
    • 索引粒度(indexing granularity)
  • 布尔检索
    • 由布尔值构成的词项-文档关联矩阵
    • 一个普遍问题就是采用 AND 操作符产生的结果正确率虽高但是召回率偏低,而采用 OR 操作符召回率高但是正确率低
    • 接受布尔表达式查询,AND,OR,NOT
    • 额外的运算方式:词项邻近(term proximity)
  • 排序检索模型(ranked retrieval model)
    • 往往是采用一个或者多个词来构成自由文本查询(free text query)
  • 容错式检索
    • 词典搜索的数据结构
    • 通配符查询
    • 拼写校正
  • 文档评分
    • 参数化索引
    • 域索引
    • 词项频率(term frequencey)
    • 逆文档频率 idf(inverse document frequency)
    • 向量空间模型(vector space model,简称VSM)
    • 文档长度的回转归一化
  • 检索系统中的评分
    • 利用倒排记录表
    • 非精确返回前 K 篇文档
    • 查询词项的邻近性
    • 搜索系统中自由文本查询的传递路径
    • 利用向量空间模型实现查询操作
  • 效果评价
    • 黄金标准(gold standard)或绝对真理(ground truth)
    • 无序检索结果集合的评价
    • 有序检索结果的评价方法
    • 相关性判定
    • 系统质量及用户效用
    • 结果片段(snippet)
  • 链接分析
    • PageRank
  • 层次聚类
  • 扁平聚类
    • 聚类是无监督学习(unsupervised learning)的一种最普遍的形式
    • 分类是监督学习的一种形式,其目标是对人类赋予数据的类别差异进行学习或复制
    • 而在以聚类为重要代表的无监督学习当中,并没有这样的人来对类别的差异进行引导
    • 聚类假设:在考虑文档和信息需求之间的相关性时,同一簇中的文档表现互相类似。
    • 搜索结果聚类可以将相似的文档放在一起呈现。通常来说,浏览几个内容连贯的文档子集会比浏览一篇篇独立的文档更容易
    • 聚类算法的主要应用
    • 聚类算法的评价
  • 机器学习
    • 基于机器学习评分
    • 基于机器学习的检索结果排序
  • 概率检索模型
    • BM25 权重计算机制(BM25 weighting scheme)或Okapi 权重计算机制(Okapi weighting)
  • XML 检索
    • 为结构化检索(structured retrieval)
    • 挑战性问题
  • 查询优化(query refinement)
    • 布尔查询
    • 全局方法
    • 局部方法
  • 索引压缩
    • 优点
    • 统计特性
    • 词典压缩
    • 倒排记录表压缩
  • 索引构建
    • 基于块的排序索引方法
    • 内存式单遍扫描索引构建方法
    • 分布式索引构建方法
    • 动态索引构建方法
    • 考虑文档对不同用户的可见性
  • 倒排索引
    • 每个词项都有一个记录出现该词项的所有文档的列表,该表中的每个元素记录的是词项在某文档中的一次出现信息
    • 这个表中的每个元素通常称为倒排记录(posting)
    • 每个词项对应的整个表称为倒排记录表(posting list)
    • 所有词项的倒排记录表一起构成全体倒排记录表(postings)
    • 每个倒排记录表存储了词项出现的文档列表,也可以存储一些其他信息,比如词项频率,词项在文档中出现的位置
    • 二元词索引
  • 词项
    • 索引的单位
    • 词条化(tokenization)
    • 归一化
    • 词项频率(term frequency,即词项在文档中出现的次数)

下方为 xmind 脑图的线上分享,如果没加载出来需要等一会会。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注