基于深度学习的NER(命名实体识别)

Dann Hiroaki

已于 2024-11-28 21:41:03 修改

阅读量1k

点赞数 20

文章标签：深度学习人工智能机器学习语言模型自然语言处理

于 2024-11-28 21:39:27 首次发布

本文链接：https://blog.csdn.net/qq_64091900/article/details/144121330

版权

$\textbf{0. }$ 概述

1️⃣ $\text{NER}$ 的三个子任务

任务描述示例
平面实体识别提取简单/非嵌套的命名实体
嵌套实体识别提取嵌套的命名实体
不连续实体识别提取不连续片段组成的实体

2️⃣基于深度学习 $\text{NER}$ 的四种范式

范式描述实现
序列标注视单词为序列输入并分配标签用 $\text{BiLSTM/BERT}$ 编码 $\text{→CRF}$ 标记
机器阅读理解将 $\text{NER}$ 问题转换为对话构造问题 $\text{-}$ 文本对，用 $\text{BERT}$ 提取答案
$\text{Token-Pair}$ 建立文本中每两个 $\text{Token}$ 的关系用 $\text{Transformer/BERT}$ 为 $\text{Token}$ 编码
生成通过生成序列的方式识别命名实体用 $\text{GPT}$ 来输出实体及其类型

任务	描述	示例
平面实体识别	提取简单/非嵌套的命名实体
嵌套实体识别	提取嵌套的命名实体
不连续实体识别	提取不连续片段组成的实体

范式	描述	实现
序列标注	视单词为序列输入并分配标签	用 $\text{BiLSTM/BERT}$ 编码 $\text{→CRF}$ 标记
机器阅读理解	将 $\text{NER}$ 问题转换为对话	构造问题 $\text{-}$ 文本对，用 $\text{BERT}$ 提取答案
$\text{Token-Pair}$	建立文本中每两个 $\text{Token}$ 的关系	用 $\text{Transformer/BERT}$ 为 $\text{Token}$ 编码
生成	通过生成序列的方式识别命名实体	用 $\text{GPT}$ 来输出实体及其类型

$\textbf{1. }$ 序列标注法：平面实体✅ $/$ 嵌套实体❌ $/$ 不连续实体❌

1️⃣ $\textcolor{green}{\text{BIO}}/\textcolor{red}{\text{BIOES}}$ 实体标注方法：

符号含义示例
$\text{B}$ 实体的开头( $\text{Begin}$ ) $\text{John}$ 标记为 $\text{B-PER}$ 表示人名的开始
$\text{I}$ 实体的内部( $\text{Inside}$ ) $\text{Sumith}$ 标记为 $\text{I-PER}$ 表示人名的内部
$\text{O}$ 非实体剧中 $\text{lives/in/and...}$ 等都应标记为 $\text{O}$
$\text{E}$ 实体的结尾( $\text{End}$ ) $\text{Sumith}$ 也可标记为 $\text{E-PER}$
$\text{S}$ 单个词的实体( $\text{Single}$ ) $\text{N/A}$

$\textcolor{green}{\text{BIO}}\textcolor{red}{\text{}}$ 示例：

$\textcolor{green}{\text{}}\textcolor{red}{\text{BIOES}}$ 示例：

2️⃣ $\text{LSTM-CRF}$ 架构：

输入：将句子 $X\text{=}\{X_1,X_2\text{,..,}X_n\}$ 转化为词嵌入向量
编码：将词嵌入向量通过双向 $\text{LSTM}$ 得到编码(上下文表示) $h_t\text{=BiLSTM}(X)$
解码：通过特征函数计算得到 $\displaystyle{}P(Y|X)=\cfrac{\exp \left(\displaystyle{}\sum_{t=1}^n f\left(y_t, y_{t-1}, h_t\right)\right)}{\displaystyle{}\sum_{Y^{\prime}} \exp \left(\sum_{t=1}^n f\left(y_t^{\prime}, y_{t-1}^{\prime}, h_t\right)\right)}$
输出：使得 $P (Y ∣ X)$ 最大的 $Y$

3️⃣ $\text{BERT-CRF}$ 架构：就是把 $\text{BiLSTM}$ 换成 $\text{BERT}$ ，更能捕获深层次的语义特征

符号	含义	示例
$\text{B}$	实体的开头( $\text{Begin}$ )	$\text{John}$ 标记为 $\text{B-PER}$ 表示人名的开始
$\text{I}$	实体的内部( $\text{Inside}$ )	$\text{Sumith}$ 标记为 $\text{I-PER}$ 表示人名的内部
$\text{O}$	非实体	剧中 $\text{lives/in/and...}$ 等都应标记为 $\text{O}$
$\text{E}$	实体的结尾( $\text{End}$ )	$\text{Sumith}$ 也可标记为 $\text{E-PER}$
$\text{S}$	单个词的实体( $\text{Single}$ )	$\text{N/A}$

$\textbf{2. }$ $\textbf{Token}$ 对法：平面实体✅ $/$ 嵌套实体✅ $/$ 不连续实体✅

1️⃣基本概念：

概念含义示例
$\text{Token}$ 输入文本中的基本单元，可以是单词/字符 $\text{University, of, Melbourne}$
$\text{Token-Pair}$ 标有起始的一对 $\text{Token}$ ，此处指实体的起止 $\text{Universit, Melbourne}$
$\text{Span}$ 起始 $\text{Token}$ 间的文本，用起始索引 $(i, j)$ 表示 $\text{University of Melbourne}$

2️⃣模型概述：

预处理：将输入文本分词( $\text{Token}$ 化) $\text{+}$ 词嵌入，得到词向量 $\{x_1,x_2,x_3\text{,...}\}$
编码层：用 $\text{BERT}$ 生成每个 $\text{Token}$ 的上下文表示，得到 $h_i\text{=}\text{BERT}(x_i)$
交互层：将所有任意 $h_ih_j$ 拼接 $/$ 加权求和 $/$ 注意力，得到初始 $\text{Span}$ 及得分 $f\left(h_i, h_j, t\right)\text{=score}_{i j, t}$
$\textbf{Item}$ 含义
$(i, j)$ $\text{Span}$ 的起始( $i$ )和结束( $j$ )位置
$\text{score}_{i j, t}$ 表示片段 $(i, j)$ 属于 $t$ 类实体的分数

分类层：依据 $\text{score}_{i j, t}$ 将不同 $\text{Span}$ 分类到各自的 $t$ 类实体中，最终组成预测矩阵 $\text{[L,L,N]}$
$\textbf{Item}$ 含义
维度含义 $\text{L}$ 为输入文本 $\text{Token}$ 长度， $\text{N}$ 为实体类别的数量
矩阵含义 $\text{[L=i,L=j,N=t]}$ 表示位于 $(i, j)$ 间 $\text{Span}$ ，属于实体类别 $t$ 的分数值 $\text{score}_{i j, t}$

3️⃣交互层的几种方法

方法 $\boldsymbol{f\left(h_i, h_j, t\right)}$ 含义
乘法式 $(W_{i, t} h_i\text{+}b_{i, t})^{T}\text{×}(W_{j, t} h_j\text{+}b_{j, t})$ 用点积测量头部和尾部的相似性
加法式 $W_t\text{×}[\tanh \left(W_h\left[h_i \text{⊕} h_j\right]\text{+}b_h\right)]\text{+}b_t$ 将 $h_ih_j$ 首尾相接→线性变换→激活
双仿射式 $h_i^T U_t h_j\text{+}W_t\left[h_i \text{⊕} h_j\right]\text{+}b_t$ 同时捕捉头部和尾部的高维语义

4️⃣示例：嵌套 $/$ 不连续实体识别问题得以解决

平面实体识别： $\text{[L,L,N=Person]}$ 层得分矩阵(不打马赛克图片会停止访问，服了)

嵌套实体识别： $\text{[L,L,N=Location/Person]}$ 层得分矩阵，嵌套实体得以识别

不连续实体识别： $\text{[L,L,N=Disorder/Middle of Disorder]}$ 层得分矩阵，不连续实体得以识别

概念	含义	示例
$\text{Token}$	输入文本中的基本单元，可以是单词/字符	$\text{University, of, Melbourne}$
$\text{Token-Pair}$	标有起始的一对 $\text{Token}$ ，此处指实体的起止	$\text{Universit, Melbourne}$
$\text{Span}$	起始 $\text{Token}$ 间的文本，用起始索引 $(i, j)$ 表示	$\text{University of Melbourne}$

$\textbf{Item}$	含义
$(i, j)$	$\text{Span}$ 的起始( $i$ )和结束( $j$ )位置
$\text{score}_{i j, t}$	表示片段 $(i, j)$ 属于 $t$ 类实体的分数

$\textbf{Item}$	含义
维度含义	$\text{L}$ 为输入文本 $\text{Token}$ 长度， $\text{N}$ 为实体类别的数量
矩阵含义	$\text{[L=i,L=j,N=t]}$ 表示位于 $(i, j)$ 间 $\text{Span}$ ，属于实体类别 $t$ 的分数值 $\text{score}_{i j, t}$

方法	$\boldsymbol{f\left(h_i, h_j, t\right)}$	含义
乘法式	$(W_{i, t} h_i\text{+}b_{i, t})^{T}\text{×}(W_{j, t} h_j\text{+}b_{j, t})$	用点积测量头部和尾部的相似性
加法式	$W_t\text{×}[\tanh \left(W_h\left[h_i \text{⊕} h_j\right]\text{+}b_h\right)]\text{+}b_t$	将 $h_ih_j$ 首尾相接→线性变换→激活
双仿射式	$h_i^T U_t h_j\text{+}W_t\left[h_i \text{⊕} h_j\right]\text{+}b_t$	同时捕捉头部和尾部的高维语义

$\textbf{3. MRC}$ 法: 平面实体✅ $/$ 嵌套实体✅ $/$ 不连续实体✅

1️⃣模型描述

核心思想：将每种实体类型表示为自然语言查询，并通过回答这些查询来提取实体
主要流程：

流程描述
输入问题/查询( $\text{E.g.}$ 文本中的人名是哪个) $+$ 原始文本
处理用 $\text{NERT/GPT}$ 等对文本进行编码
输出通过分类层，得到最佳的答案

示例：
对平面实体的抽取：对于人名的查询

对嵌套实体的抽取：分别对于人名/地点的查询

对不连续实体的抽取：对于疾病名字/疾病中间名字的查询

流程	描述
输入	问题/查询( $\text{E.g.}$ 文本中的人名是哪个) $+$ 原始文本
处理	用 $\text{NERT/GPT}$ 等对文本进行编码
输出	通过分类层，得到最佳的答案

$\textbf{4. }$ 生成法: 平面实体✅ $/$ 嵌套实体✅ $/$ 不连续实体✅

1️⃣模型概述

含义：采用 $\text{seq2seq}$ 模式，通过生成式得到实体
示例：
输入： $\text{have muscle pain and fatigue}$
生成： $\text{disorder: “muscle pain”, “muscle fatigue”}$

2️⃣模型结构：懒得说了，自己看吧