Es中文分词器+拼音分词器

前言

分词是es进行搜索的一个核心内容,将输入内容分词之后,进行倒排索引的建立

那么有常见的有哪些呢?

  1. Standard Analyzer:默认分词器,适用于大多数语言,按空格和标点分词。
  2. IK Analyzer:适用于中文,提供轻量和智能两种模式,分词精度高。
  3. NGram Analyzer:通过生成字符 n-gram 来分词,适用于模糊匹配和拼音输入。
  4. Edge NGram Analyzer:生成字符前缀 n-gram,适用于自动补全和搜索提示。
  5. Whitespace Analyzer:只按空格分词,适用于简单的英文文本。
  6. Custom Analyzer:用户自定义分析器,灵活组合分词器和过滤器。
  7. Language-specific Analyzers:针对特定语言优化的分词器,如英文、法文等。
  8. Pattern Analyzer:使用正则表达式进行分词,适用于特定模式文本。
  9. Snowball Analyzer:支持多语言的词干提取,适合信息检索。
  10. Keyword Analyzer:不进行分词,适合精确匹配场景。
  11. Pinyin Analyzer:Elasticsearch 可以通过插件支持拼音分词器,常见的插件是 elasticsearch-analysis-pinyin。该分词器会将中文汉字转换为拼音,并生成对应的拼音索引,以便进行拼音查询。

而在国内实际使用的业务的话,一般就是中文分词器IK Analyzer、拼音分词器Pinyin Analyzer、以及默认的标准分词器Standard Analyzer。

我们也以这其中的使用的比较多的中文分词器IK Analyzer、拼音分词器Pinyin Analyzer作为讲解

中文分词器IK Analyzer

默认的分词器是标准分词器,它会将文本分割为单词,并去除停用词(如“的”、“是”等),在生产实际使用过程中,是不符合国内的业务的

所以我们需要引入中文分词器 ik

  • IK Analyzer:一个流行的中文分词插件,支持细粒度和粗粒度两种分词模式,适合处理中文文本。

安装步骤

注意:安装的版本需要跟es的版本保持一致,我这里使用的7.3.2的

下载

  • 方式一:如果需要的ik是7.3.2 ,否则可以选择其他的方式

  • 公众号I am Walker 获取,回复ik<font style="color:rgb(26, 27, 28);">分词器

  • 方式二:github下载

https://github.com/infinilabs/analysis-ik/tags

找到自己需要的版本

例如我需要下载v7.3.2

下载zip的方式

上传,解压

# 切换到es下的plugins 这里根据自己es的安装目录
cd elasticsearch-7.3.2/plugins
# 上传
rz
# 解压
unzip elasticsearch-analysis-ik-7.3.2.zip -d ik
# 删除压缩包,否则启动会报错
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WalkerShen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值