目录
1. 倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的
2. 分词器的标准化分词的规则是无视大小写、单复数、同义词的
案例一
【提示】第一列是单词ID; 第二列是单词; 第三列是文档编号
总结
倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的!
案例二
【提示】我们可以看到分词器的标准化分词的规则是无视大小写、单复数、同义词的!
1. 倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的
2. 分词器的标准化分词的规则是无视大小写、单复数、同义词的
【提示】第一列是单词ID; 第二列是单词; 第三列是文档编号
总结
倒排索引列表可以包含文档的ID、词频TF、位置信息,同时注意倒排索引列表里面的单词是不重复的!
【提示】我们可以看到分词器的标准化分词的规则是无视大小写、单复数、同义词的!