Jack's Blog

流淌的心,怎能阻拦,吹来的风,又怎能阻挡。

索引概论笔记

Jacob posted @ Jul 13, 2017 01:20:34 PM in 数据结构 with tags 索引 数据结构 倒排索引 , 39 阅读

输入顺序文件

主码(数据库唯一标识)和辅码(可以重复:属性码)

索引是把一个关键码与它对应的数据记录位置相关联的过程(数据库基础)

索引文件 (内存太大放不下,就把他记录在外层)

树形索引( logk n )———线性()

 一般不超过4层

关键码,指针对


倒排索引

针对索引的对象的不同。

属于属性的倒排

对正文文件的倒排

(key,point)元组

key可能是离散型的

属性值:具有该属性值的各记录的地址列表

不是由记录关键码来确定属性值,而是由属性值来确定记录的位置,因而被称为倒排索引

这种属性往往是离散型的。

而对于连续型的索引,往往用B树

对于数据记录文件

关键码:职工号

如果不建立索引,需要每次把数据文件导入内存

eg DEPT= "Toy"

不建立索引的话,查询时间非常的长

1.索引项

索引值:key-----p唯一

倒排文件:能取相同key 值的有很多

所以找出来的是一组(串)指针

优点:能够对于基于属性的检索进行较高效率的处理

缺点:花费了保存倒排表的存储代价

降低了更新运算效率


对正文文件的倒排

正文索引:建立数据结构以提供对文本内容的快速检索

词索引、全文索引

词索引最广泛

abcus  出现4次 所在文档 所在位置

记录位置:相关性大,能判断这几个词在那几篇文章的位置给你,排序效果比较好

停用词,抽词干,切词

对关键词的检索

1.在倒排文件中检索关键词

2.如果找到了关键词,那么获取文件中的对应的倒排表,并获取倒排表中的记录(通常使用字典 trie 散列 ,bst ,B+)


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter