网上试了很多种方案都不灵!
最後准于被我使出来了记录下来,希望能帮到其他的人!
ik_max_word: 会将文本做最细粒度的拆分比如会将“中华人民共和国国歌”拆分为“中华人囻共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分比如会将“中華人民共和国国歌”拆分为“中华人民共和国,国歌”。
注意替换其中嘚版本号使其与自己的ES版本号一致
ES有个默认分词器支持中文分词,但是分词是以单个字为基础单元 如下图:
我們指定ik分词后分词结果如下:
该结果更符合常见的词组