实体命名识别(NER)任务中加词典

本文介绍了如何在命名实体识别(NER)任务中融合词典,通过LSTM模型构建特征向量,利用词典信息提升NER系统的性能。详细探讨了特征模板构建、模型设计及实验结果,分析了模型效果不佳的原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读

  • 本文主要介绍一下,怎么在NER任务中融合词典。

一、NER任务简介

NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

二、LSTM模型融合词典

1、特征向量的构建

  • 给定一个句子sentence X 和一个外部词典Dictionary,记作D。 我们通过对句子中的每个词 xi x i 抽取特征模板,通过特征模板上的词产生特征向量。特征模板描述为如下图
    这里写图片描述
  • 对于每一个出现在特征的文本片段,我们都产生一个二进制的值来表示这个片段是否在词典 D 中,如果在词典中可以找到,我把这个词的向量表示为1,否则,表示为0。

举个例子说明:
美国总统特朗普意识到对中国发起 易战是极其愚蠢的做法。
2-gram 起贸 贸易
3-gram 发起贸 贸易战
4-gram 国发起贸 贸易战是
5-gram 中国发起贸 贸易战是极
对应词典有“贸易”、“贸易战”,那我们的特征向量 t 可以表示为:

0 1 0 1 0 0 0 0

2、model的设计

  • 设计图如下,这也是参考论文:Neural Networks Incorporating Dictionaries for Chinese Word Segmentation。2018年AAAI论文做法:
    这里写图片描述
    图片中的 t1t2....tn t 1 , t 2 . . . . t n 表示我们抽取的特征向量,作为一个LSTM向量的输入,而 e

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值