1. 正排索引:文档ID为Key,表中记录了,关键词出现的次数,出现的位置。优点:易维护。缺点:搜索的耗时太长。2. 倒排索引:关键词为Key,表中记录了,文档的ID,出现的频率,出现的位置。优点:搜索耗时短。缺点:不易维护。实现:1. Lucene中Analyzer分词器将有效的关键词分解出来。
例如,为了提高性能,Lucene会将同一个term重复地index到各种不同的数据结构中,以支持不同目的的搜索,...
实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了,做个资料库;你可以把一个数据库表的若干个字段索引起来,那就不用再担心因为“%like%”而锁...
1) 如果需要编码的数值有N个,则哈夫曼树的叶子节点有N个,每个都需要一个指向数值的指针,内部节点个数是N-1个,每个内部节点包含两个指针,如将整棵哈夫曼树保存在内存中,假设数值和指针都需要占用M个byte,则需要(N+N+2(N-1))*M=(4N-2)*M的空间,耗费还是比较大的。 2) 哈夫曼树的形成是有一定的不稳...