BPE、Wordpiece、Unigram、SpanBERT等Tokenizer细节总结

taoqick

已于 2025-03-15 14:24:32 修改

阅读量2k

点赞数 14

文章标签：人工智能机器学习 leetcode

于 2024-04-27 23:55:03 首次发布

本文链接：https://blog.csdn.net/taoqick/article/details/138185252

版权

BPE(Byte Pair Encoding)

GPT-2和Roberta用的是这种，不会产生[UNK]这个unknown字符

这部分部分摘录自https://martinlwx.github.io/zh-cn/the-bpe-tokenizer/

看以下code例子就足够理解了，核心是维护self.merges（维护一个pair->str的字典）和self.vocab（每次挑最高频的pair加入self.vocab）做训练，每次刷新一遍最新的self.splits，具体格式参考注释：

from collections import defaultdict, Counter
from typing import List

class BPE:
    def __init__(self, corpus: List[str]):
        self.corpus = corpus
        self.word_freq = Counter()
        self.word_ch_lst_dic = {
   }  # 格式：highest: [hi, gh, est, </w>]，只有train的时候有用
        self.merge_lst = []  # 格式：[(s, </w>),(high, est</w>)]，最开始是字符级别，然后逐渐过渡到ngram级别

        self.vocab = [] # 只有train的时候有用，控制最大vocab数量
        self.vocab_size = 17

        self.max_iter = 100
        self.debug = True

    def train(self):
        """分三步：
        1. 把sentence_list(也就是corpus)变成word_list统计word频率word_freq，每个word后补/w统计word_ch_lst_dic； 
        2. 根据word_ch_lst_dic得到vocab，然后在cur_vocab_size < vocab_size同时cur_iter<=max_iter的条件下循环；
        3. 每个循环内根据word_freq和word_ch_lst_dic得到每个pair的频率，取pair最高频率追加merge_lst，然后刷新word_ch_lst_dic
        """
        for document in self.corpus:
            words = document.split() #按照空格等whitespae进行split
            self.word_freq += Counter(words)

        for word in self.word_freq:
            self.word_ch_lst_dic[word] = list(word) + ["</w>"]
        if self.debug:
            print(f"Init splits: {
     self.word_ch_lst_dic}")
        alphabet = set()
        for word in self.word_freq:
            alphabet |= set(list(word))
        alphabet.add("</w>")
        self.vocab = list(alphabet)
        self.vocab.sort()

        cur_iter = 0
        while len(self.vocab) < self.vocab_size and cur_iter < self.max_iter:
            pair_freq = self.get_pairs_freq() #格式为 {('a','b'):3,('c','d'),5}
            pair = max

最低0.47元/天解锁文章