导读
- 本文主要介绍一下,怎么在NER任务中融合词典。
一、NER任务简介
NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。
二、LSTM模型融合词典
1、特征向量的构建
- 给定一个句子sentence X 和一个外部词典Dictionary,记作D。 我们通过对句子中的每个词 xi x i 抽取特征模板,通过特征模板上的词产生特征向量。特征模板描述为如下图
- 对于每一个出现在特征的文本片段,我们都产生一个二进制的值来表示这个片段是否在词典 D 中,如果在词典中可以找到,我把这个词的向量表示为1,否则,表示为0。
举个例子说明:
美国总统特朗普意识到对中国发起 贸 易战是极其愚蠢的做法。
2-gram 起贸 贸易
3-gram 发起贸 贸易战
4-gram 国发起贸 贸易战是
5-gram 中国发起贸 贸易战是极
对应词典有“贸易”、“贸易战”,那我们的特征向量 t 可以表示为:
0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 |
---|
2、model的设计
设计图如下,这也是参考论文:Neural Networks Incorporating Dictionaries for Chinese Word Segmentation。2018年AAAI论文做法:
图片中的 t1,t2....tn t 1 , t 2 . . . . t n 表示我们抽取的特征向量,作为一个LSTM向量的输入,而 e