
NLP
文章平均质量分 66
Yonggie
只写优质原创,坚决绝拒绝抄袭 | 研究员 | 广州大学 | 香港中文大学深圳FNii | pytorch_geometric(PyG)、FATE contributor
展开
-
teacher forcing training速览
teacher forcing不局限于rnn,序列数据都可以用。原创 2024-04-30 10:20:05 · 235 阅读 · 0 评论 -
toolformer,教会大语言模型使用api接口
此文章的意图在于:也就是是一个类似于chatGPT一样的模型能够获得调用API的能力。原创 2023-04-03 19:23:14 · 2074 阅读 · 0 评论 -
pytorch LSTM 文本分类简单例子
3万文本,trainvaltest622.原创 2022-07-15 22:45:38 · 1240 阅读 · 0 评论 -
xgboost+word2vec文本分类简单例子
3万文本,trainvaltest622.原创 2022-07-15 16:50:56 · 925 阅读 · 0 评论 -
词对齐任务:依附于机器翻译
词对齐任务分为三大实现方式,详情见之前博客说道机翻显然就想到transformer,其encoder-decoder结构其实即便是在使用了lstm等模型上也是这样的,依附在NMT的word alignment任务就可以直接使用seq2seq的输出对输入的词attention(动图https://www.bilibili.com/video/BV1J441137V6,36:00)来表征word alignment。这个是很intuitive的方法,我不使用任何模型,直接用概率统计的方法,算出两词间的互信息值,原创 2022-06-24 10:45:09 · 1180 阅读 · 0 评论 -
词对齐任务:端到端模型
纯实现不同语言间的word alignment单一目标,没有依附于机器翻译,单纯就是词(组)找词(组)。以下工作都是为了找到不同语言间word的线性映射WWW。共同特点是无监督,不需要对齐的语料做训练。提出线性映射即可在不同语言之间实现词翻译,提出了self supervised方法,不需要平行语料进行训练方法是一个迭代方法,求两个语料之间的WWW线性映射。双语对应一个WWW,多语种直接An2A_n^2An2,不方便。先adversarial方法得到rough的映射关系(图中......原创 2022-06-24 10:44:05 · 824 阅读 · 0 评论 -
词对齐任务实现方式概述
是什么在machine translation中的词对齐问题。算是机器翻译的子衍生问题吧,感觉应用面不是很广。一篇文文献里的自述:Word Alignment is the task of finding the correspondence between source and target words in a pair of sentences that are translations of each other.一般这种对应关系会被表示成这样子的相关矩阵,谁分数高就表示谁与谁对齐,我就把他叫原创 2022-06-10 16:01:53 · 1248 阅读 · 0 评论 -
通俗理解什么是ngram
gram指句子中的连续的一小部分。 里面,就可以看做是gram。gram中几个单词就说是几gram,是3-gram。n gram指数量是n的gram。在statistical language model,统计语言模型中倘若要完成这个填词任务,后面词填什么才最合适?转换成统计问题就变成了,一个句子中已经发生了,后面是什么词才期望最大。写作arg maxxP(x∣w1,w2,w3)\argmax_x P(x|w_1,w_2,w_3)xargmaxP(x∣w1,w2,w3)w1w_1w1是you原创 2022-06-06 16:43:43 · 1442 阅读 · 0 评论 -
使用python gensim转换glove到word2vec
项目想直接用已经embed好的词向量,奈何要用word2vec格式。这里有个可以下载的glove格式词向量。glove词向量传送门里面这个名词的文件就是词向量文件如何转成word2vec文件太大,所以尽管用了这个还是需要一段时间,我i7 7700HQ 16G用了2分钟左右。import gensimfrom gensim.test.utils import datap...原创 2019-05-29 17:20:51 · 2048 阅读 · 0 评论