【Elastic Search学习总结】4. 倒排索引

本文介绍倒排索引列表的构成要素如文档ID、词频TF及位置信息,并强调列表内单词不重复的特点。此外,还详细阐述了分词器的标准化分词规则,包括忽略大小写、单复数及同义词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.  倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的

2.  分词器的标准化分词的规则是无视大小写、单复数、同义词的

 

案例一 

        

【提示】第一列是单词ID;    第二列是单词;  第三列是文档编号

总结

 倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的!

 

案例二

【提示】我们可以看到分词器的标准化分词的规则是无视大小写、单复数、同义词的!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值