共 30 篇文章

ElasticSearch高级功能：Cross Cluster Replication实战

ElasticSearch压测工具：esrally离线使用详解

ElasticSearch实战：Kibana可视化

ElasticSearch实战：IK中文分词插件

ElasticSearch实战：将文本文件导入kibana

ElasticSearch实战：Linux日志对接Kibana

Elasticsearch：flattened 数据类型（7.3 发行版新功能）

Elasticsearch： range 数据类型及基于range的聚合 (7.4发行版新功能)

腾讯云ES索引生命周期管理使用教程（视频）

腾讯云ES数据备份恢复使用教程（视频）

Elasticsearch：透彻理解 Elasticsearch 中的 Bucket aggregation

Elasticsearch：pipeline aggregation 介绍

Elasticsearch：Index 生命周期管理入门

Elastic Stack 7.7 Observability 新功能介绍

腾讯云中 Elastic Stack 的 Beats 部署最佳实践

海量挑战：腾讯云ES可用性及性能优化实践

Elasticsearch: Reindex接口

Elasticsearch：Java 运用示例

如何安装 Elastic 栈中的 Logstash

Logstash: 应用实践 - 装载 CSV 文档到 Elasticsearch

2分钟快速了解Elasticsearch

Elastic：Elasticsearch 的分片管理策略

Elasticsearch：如何把 Elasticsearch 中的数据导出为 CSV 格式的文件

Elasticsearch：Elasticsearch 中的 refresh 和 flush 操作指南

Kibana: 如何使用 Search Bar

Kibana：如何开始使用 Kibana

10分钟快速入门海量数据搜索分析引擎 Elasticsearch

腾讯万亿级 Elasticsearch 内存效率提升解密

腾讯Elasticsearch海量规模背后的内核优化剖析

【ElasticSearch性能测试】esrally最新版本的编译、安装与使用

清单首页ElasticSearch一条龙文章详情

清单「ElasticSearch一条龙」 04/30

ElasticSearch实战：IK中文分词插件

BH8ANK·腾讯工程师

原创声明：本文首发腾讯云·云+社区，未经允许，不得转载

1. 官方文档

https://github.com/medcl/elasticsearch-analysis-ik

https://code.google.com/archive/p/ik-analyzer/

这里使用了腾讯云ElasticSearch服务，已默认集成了IK中文分词插件，因此安装过程略。

2. 我们为什么要使用IK分词插件

2.1 示例

我们以下面这个例子来做说明

1），创建索引与映射

PUT tencent

POST /tencent/bh8ank/_mapping
{
   "properties": {
      "content": {
         "type": "text"
      }
   }
}

2），上传数据

POST /tencent/bh8ank/1
{
  "content": "《王者荣耀》是由腾讯游戏天美工作室群开发并运行的一款运营在Android、IOS、NS平台上的MOBA类手机游戏"
}

POST /tencent/bh8ank/2
{
  "content": "谁是行业的王者？国内细分行业龙头公司最全名单汇总"
}

POST /tencent/bh8ank/3
{
  "content": "一个衰落行业的王者!还有多少荣耀?"
}

POST /tencent/bh8ank/4
{
  "content": "王小二，1999年从中国人民大学新闻系毕业，以记者身份进入中央电视台"
}

3），检索数据

GET /tencent/bh8ank/_search
{
    "query": {
        "match": {
                "content":"王者荣耀"
        }
    }
}

此时，我们的目的，是搜索包含“王者荣耀”的结果，但实际上，搜索结果是：

搜索包含“王者荣耀”的结果

我们会发现，搜索结果中，有部分结果，并不是我们想要的。当数据量庞大时，这种问题的影响会更深。

2.2 分析

ElasticSearch对中文文本的搜索，支持度很有限。使用标准分词器的情况下，会将一段文本，分成多个“词”（word），每个“词”实际上对应单独的一个汉字。如下图，标准分词器将“王者荣耀”分为了4个独立的汉字。所以，上一步中，检索结果返回了所有包含这4个独立汉字的内容。

默认标准分词器对“王者荣耀”的拆分

那么问题来了，如果我们在检索“王者荣耀”时，只想要完整包含了“王者荣耀”这个词的结果，需要怎么办呢？

我们需要一款支持中文的分词器，根据我们的需求，对中文进行分词。比如说，我们在上面检索之前，将“王者荣耀”设定为一个整体的、不可拆分的“词”，在检索时，只有完整包含“王者荣耀”这个词的结果才会被匹配，其他没有完整包含关键词的结果不能被匹配。

IK中文分词器就实现了上述的功能。

 IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。
 从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。
 最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。
 从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。
 在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

3. IK中文分词插件怎么使用

下面，我们创建一个新的集群，仍以上面的检索为例。使用IK后，重新检索。

3.1 创建索引和映射

PUT tencent

POST /tencent/bh8ank/_mapping
{
        "properties": {
            "content": {
                "type": "text",
                "analyzer": "ik_smart",           ##指定索引内容使用ik_smart分词
                "search_analyzer": "ik_smart"     ##指定检索时，使用ik_smart分词
            }
        }
}

3.2 上传数据

POST /tencent/bh8ank/1
{
  "content": "《王者荣耀》是由腾讯游戏天美工作室群开发并运行的一款运营在Android、IOS、NS平台上的MOBA类手机游戏"
}

POST /tencent/bh8ank/2
{
  "content": "谁是行业的王者？国内细分行业龙头公司最全名单汇总"
}

POST /tencent/bh8ank/3
{
  "content": "一个衰落行业的王者!还有多少荣耀?"
}

POST /tencent/bh8ank/4
{
  "content": "王小二，1999年从中国人民大学新闻系毕业，以记者身份进入中央电视台"
}

3.3 检索数据

GET /tencent/bh8ank/_search
{
    "query": {
        "match": {
                "content":"王者荣耀"
        }
    }
}

查看结果，我们发现，并没有像我们期待的那样只返回完整包含了“王者荣耀”的结果，而是依旧返回了很多我们不需要的结果。如下图：

检索“王者荣耀”返回的结果

那么，问题出在哪里呢？

我们来看看，ik_smart是如何处理“王者荣耀”的：

默认情况下，ik_smart对“王者荣耀”的拆分处理

如上图，ik_smart将“王者荣耀”拆分为了两个词“王者”和“荣耀”，因此，在上一步检索时，返回了所有包含这两个词的结果。

那么，问题又来了，我们如何让IK插件准确地将“王者荣耀”识别为一个完整、独立的词呢？

3.4 上传启用词库

IK插件提供了启用词库的功能，这个功能，通过用户上传自定义的词库来实现。词库中定义的词，将不会被拆分，而是直接当做一个完整、独立的词来处理。

词库的制作需要注意两点：1，后缀以.dic格式命名；2，文件内容为utf-8编码，每行一个词

因此，我们需要制作一个词库，如下图：

IK自定义启用词库

然后上传至当前使用了ElasticSearch集群，如下图：

上传启用词库

等待几分钟，词库生效。

3.5 再次检索数据

GET /tencent/bh8ank/_search
{
    "query": {
        "match": {
                "content":"王者荣耀"
        }
    }
}

查看检索结果，如下图：

上传启用词库后的检索结果

OK，现在只返回了我们需要的结果。

4. 总结

IK中文分词插件的其他相关内容这里暂不赘述。

启用词库的作用，主要是方便用户对某些自定义的词组进行统一处理，避免因拆分过度导致出现非期望的检索结果。

ElasticSearch一条龙

ElasticSearch实战：IK中文分词插件

1. 官方文档

2. 我们为什么要使用IK分词插件

2.1 示例

2.2 分析

3. IK中文分词插件怎么使用

3.1 创建索引和映射

3.2 上传数据

3.3 检索数据

3.4 上传启用词库

3.5 再次检索数据

4. 总结

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐