BPE(Byte Pair Encoding)
GPT-2和Roberta用的是这种,不会产生[UNK]这个unknown字符
这部分部分摘录自https://martinlwx.github.io/zh-cn/the-bpe-tokenizer/
看以下code例子就足够理解了,核心是维护self.merges(维护一个pair->str的字典)和self.vocab(每次挑最高频的pair加入self.vocab)做训练,每次刷新一遍最新的self.splits,具体格式参考注释:
from collections import defaultdict, Counter
from typing import List
class BPE:
def __init__(self, corpus: List[str]):
self.corpus = corpus
self.word_freq = Counter()
self.word_ch_lst_dic = {
} # 格式:highest: [hi, gh, est, </w>],只有train的时候有用
self.merge_lst = [] # 格式:[(s, </w>),(high, est</w>)],最开始是字符级别,然后逐渐过渡到ngram级别
self.vocab = [] # 只有train的时候有用,控制最大vocab数量
self.vocab_size = 17
self.max_iter = 100
self.debug = True
def train(self):
"""分三步:
1. 把sentence_list(也就是corpus)变成word_list统计word频率word_freq,每个word后补/w统计word_ch_lst_dic;
2. 根据word_ch_lst_dic得到vocab,然后在cur_vocab_size < vocab_size同时cur_iter<=max_iter的条件下循环;
3. 每个循环内根据word_freq和word_ch_lst_dic得到每个pair的频率,取pair最高频率追加merge_lst,然后刷新word_ch_lst_dic
"""
for document in self.corpus:
words = document.split() #按照空格等whitespae进行split
self.word_freq += Counter(words)
for word in self.word_freq:
self.word_ch_lst_dic[word] = list(word) + ["</w>"]
if self.debug:
print(f"Init splits: {
self.word_ch_lst_dic}")
alphabet = set()
for word in self.word_freq:
alphabet |= set(list(word))
alphabet.add("</w>")
self.vocab = list(alphabet)
self.vocab.sort()
cur_iter = 0
while len(self.vocab) < self.vocab_size and cur_iter < self.max_iter:
pair_freq = self.get_pairs_freq() #格式为 {('a','b'):3,('c','d'),5}
pair = max