Finks_chen-CSDN博客

原创【总结】Transformer预训练任务总结

transformer预训练模型使用记录

2021-12-29 11:29:08 842

原创【记录】pycharm中Flask框架

pycharm中Flask框架诉求：在pycharm中编写Flask脚本，运行时候一直以Flask框架运行，如下图；诉求想要以正常脚本运行；解决办法：setting - 搜索flask, 进行如下设定；

2021-09-14 11:41:58 477

【记录】输出requirements.txt项目中需要requirements.txt记录项目需要安装的包，记录的内容格式如下：sentence_transformers==2.0.0tqdm==4.62.2flair==0.9spacy==3.1.2numpy==1.19.5Flask==2.0.1jieba==0.42.1gensim==3.8.3transformers==4.10.0pytest==6.2.5rich==10.9.0scikit_learn==0.24.2

2021-09-09 20:45:53 445

原创【记录】使用transformers从头开始训练bert

【记录】使用transformers从头开始训练bert这篇记录主要记录使用transformers库训练从头开始训练自己的bert预训练模型；bert训练任务；bert预训练模型包含两个任务:mask词预测相邻句子预测使用的API使用的api为BertForPreTrainingfrom transformers import BertConfig, BertForPreTraining# 构建模型config = BertConfig(vocab_size=len(WORDS)

2021-08-02 21:16:48 2252

原创 transformers 问题记录汇总

【记录】transformers 问题记录汇总文章目录【记录】transformers 问题记录汇总文档备忘： https://huggingface.co/transformers/错误记录：文档备忘： https://huggingface.co/transformers/错误记录：

2021-08-02 11:18:58 179

原创【面筋】NER技巧

【面筋】NER技巧文章目录【面筋】NER技巧trick 1：领域词典匹配trick 2：规则抽取trick 3：词向量选取：词向量 or 字向量？trick 4：特征提取器如何选择？trick 5：专有名称怎么处理？trick 6：标注数据不足怎么处理？trick 7：嵌套命名实体识别怎么处理7.1 什么是实体嵌套？7.2 与传统命名实体识别任务的区别7.3 解决方法：7.3.1 方法一：序列标注7.3.2 方法二：指针标注7.3.3 方法三：多头标注7.3.4 方法四：片段排列trick 8：

2021-07-07 17:56:12 275

原创【笔记】事件抽取

【笔记】事件抽取一、概念参考1. 什么是事件抽取？ACE定义：事件抽取式从一段描述文本（一般是句子级的）中抽取一些关键元素，根据ACE的定义，组成事件的元素包括：触发词，事件类型，论元和论元角色；D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:「事件触发词」：Trigger, 表示事件发生的核心词，多为动词和特有名词；「事件类型」：最清楚地表达事件发生的主要词，一般指动词或名词。 A

2021-07-05 17:54:29 784

原创【总结】知识图谱-关系抽取

【总结】知识图谱-关系抽取文章目录【总结】知识图谱-关系抽取一、序1.1 什么是关系抽取？1.2 关系抽取技术有哪些类型？1.3 常见的关系抽取流程是怎么做的？二、概念介绍2.1 模板匹配方法是指什么？有什么优缺点？2.2 远监督关系抽取是指什么？它有什么优缺点？2.3 什么是关系重叠？复杂关系问题？2.4 联合抽取是什么？难点在哪里？2.5 联合抽取总体上有哪些方法？各有哪些缺点？三、方案3.1 基于共享参数的联合抽取方法1）使用依存结构树：2）指针网络同时识别实体和关系3）Copy机制+seq2seq

2021-07-05 15:49:10 1001

原创【总结】自动摘要

【总结】自动摘要文章目录【总结】自动摘要1、开篇2、抽取式摘要篇2.1 抽取式摘要是怎么做的？2.1.1 句子重要性评估算法有哪些？2.1.2 基于约束的摘要生成方法有哪些？2.1.3 TextTeaser算法是怎么抽取摘要的？2.1.4 TextRank算法是怎么抽取摘要的？2.2 抽取式摘要的可读性问题是什么？3、压缩式摘要篇3.1 压缩式摘要是怎么做的？4、生成式摘要篇4.1 生成式摘要是怎么做的？4.2 生成式摘要存在哪些问题？4.3 Pointer-generator network解决了什

2021-07-02 19:03:27 324

原创【总结】TextCNN补充

【总结】TextCNN补充TextCNNTextCNN可以调整哪些参数？1、卷积和大小，一个合理的值范围在1~10. 若输入文本句子较长，可以考虑更大的卷积核；并行卷积的数量，可以在寻找到最佳的卷积核尺寸后，在该尺寸附近寻找其他的合适值来进行组合，实践证明这样的组合效果往往比单个最佳的卷积核表现更好，而且，网络对文文本，网络设计越宽，效果可能更好。2、特征图的个数；这个参数为影响最终特征的维度，维度太大训练会变慢，合理的值在100~600之间即可。3、正则化项，当特征图数量增加时，有过拟合风险，可

2021-07-02 15:49:59 615

原创【笔记】聚类算法总结

【笔记】聚类算法总结文章目录【笔记】聚类算法总结1、K-means2、HAC层次凝聚3、最大最小距离聚类算法参考资料聚类是无监督学习的代表，目的是将属性相似的样本归到同一类上去；这里介绍一下常见的聚类算法：1、K-meansk-means是非常经典的聚类算法：其算法思路如下：手动定义k个类别，在数据集中选取k个点，作为每一类的中心点；计算剩下的其他样本和这k个样本之间的距离，对于每一个样本点，将他归到和他距离最近的聚类中心所属的类；计算每一类中所有点的均值，得到新的每一类的聚类中心；重复

2021-07-01 14:59:14 324

原创【记录】json输出美化

【记录】json输出美化json写入本地文件，用的json.dump直接写或者json.dumps然后写字符串；这两种方法写完之后发现字符串中的中文都变成ASCII码，难看！a = {'name': '吕布奉先', 'age':42, '武器':"方天画戟", "坐骑":"赤兔马"}import jsonjson.dump(a, open('a.json', 'w', encoding='utf8')){"name": "\u5415\u5e03\u5949\u5148", "age": 42

2021-07-01 10:52:39 829

原创【记录】pytorch_transformer使用的一个错误

记录一个错误：pytorch_transformer使用过程中报错：Model name '..\chinese_roberta_wwm_ext_pytorch' was not found in model name list (bert-base-uncased, bert-large-uncased, bert-base-cased, bert-large-cased, bert-base-multilingual-uncased, bert-base-multilingual-cased, be

2021-06-30 09:55:24 1115 1

原创【笔记】GPT

【笔记】GPT文章目录【笔记】GPT介绍原理预训练过程fine-tuningGPT和ELMO非常相似，把语言模型直接迁移到具体的NLP任务中，因此，更容易迁移学习；不过也有弊端，这种将结构带入下游任务中的模式，不一定对每个任务都适用，GPT主要还是针对分类任务和标注性任务，对于生成任务，比如机器翻译，则它的结构也没办法进行很好的迁移；介绍GPT在2018年由OpenAI提出，通过在大量的语料上预训练语言模型，然后再将训练好的模型迁移到具体的下游NLP任务，从而提高模型的能力；论文地址： Impr

2021-06-28 13:43:32 825 1

原创【记录】ELMo

【记录】ELMo文章目录【记录】ELMoELMo的组成ELMo的代码实现和使用ELMo是一种word Embedding方法，传统的word2vec是静态方法吗，训练出来的词是固定不变的，其无法处理一词多义的问题，ELmo正是为了解决这一问题而提出的一种新的embedding表示方法；ELMo的组成ELmo由两部分组成，正常的词向量Embedding和双向LSTM叠块组成，训练任务为根据单词WiW_iWi 的上下文去预测当前词WiW_iWi, 也是填空了；ELMo由Embedding层和编码器块

2021-06-27 22:44:42 196

原创【面筋】关于Attention

【面筋】关于Attention一、seq2seq 篇1.1 seq2seq （Encoder-Decoder）是什么？介绍：seq2seq （Encoder-Decoder）将一个句子（图片）利用一个 Encoder 编码为一个 context，然后在利用一个 Decoder 将 context 解码为另一个句子（图片）的过程；应用：在 Image Caption 的应用中 Encoder-Decoder 就是 CNN-RNN 的编码 - 解码框架；在神经网络机器翻译中 Encoder-

2021-06-17 14:26:00 119

原创【总结】关于CNN

【总结】关于CNN文章目录【总结】关于CNN一、动机篇二、CNN 卷积层篇2.1 卷积层的本质是什么？2.2 CNN 卷积层与全连接层的联系？2.3 channel的含义是什么？三、CNN 池化层篇3.1 池化层针对区域是什么？3.2 池化层的种类有哪些？3.3 池化层的作用是什么？3.4 池化层反向传播是什么样的？3.5 mean pooling 池化层反向传播是什么样的？3.6 max pooling 池化层反向传播是什么样的？四、CNN 整体篇4.1 CNN 的流程是什么？4.2 CNN

2021-06-17 14:01:35 121

原创【记录】Typora公式

【记录】Typora公式???? 记录文章目录【记录】Typora公式公式插入行内公式独行公式上下标，下划线，上下括号，公式标签，上位上下标下划线符号标签上大括号下大括号上位符号占位符两个 quad 空格quad 空格大空格中空格小空格贴紧界定符与组合括号中括号大括号自适应括号组合公式四则运算加减加减运算减加运算乘叉乘点乘星乘除除号斜杠除分式绝对值高级运算平均数开方开平方开多次方对数极限求和积分微分矩阵逻辑运算大于、小于和等于大于大于等于小于小于等于等于不等于不大于等于、不小于等于不大于等于不小于等

2021-06-17 13:40:01 409

原创【笔记】关于Transformer问题

【笔记】关于Transformer问题????关于Transformer问题汇总文章目录【笔记】关于Transformer问题一、动机篇1.1 为什么要有 Transformer?1.2 Transformer 作用是什么？二、整体结构篇2.1 Transformer 整体结构是怎么样？2.2 Transformer-encoder 结构怎么样？2.3 Transformer-decoder 结构怎么样?三、模块篇3.1 self-attention 模块3.1.1 传统 attention 是什么

2021-06-17 13:03:01 324

原创【笔记】支持向量机

【笔记】支持向量机文章目录【笔记】支持向量机一、原理篇1.1 什么是SVM？Q.A1.2 SVM怎么发展的？1.3 SVM存在什么问题？Q.A二、算法篇2.1 什么是块算法？2.2 什么是分解算法？2.3 什么是序列最小优化算法？2.4 什么是增量算法？Q.A三、其他SVM篇3.1 什么是最小二次支持向量机？3.2 什么是模糊支持向量机？3.3 什么是粒度支持向量机？3.4 什么是多类训练算法？3.5 什么是孪生支持向量机？3.6 什么是排序支持向量机？Q.A四、应用篇4.1 模式识别4.2 网页分类4.

2021-06-17 10:50:28 226

原创【面筋】关于集成学习

【面筋】关于集成学习文章目录【面筋】关于集成学习1、集成学习的基本思想？2、为什么集成思路有效？3、Boosting策略1) boosting的特点是什么？2）Boosting的流程？3）GBDT4）XgBoost4、Bagging策略1）bagging的特点是什么？2）bagging的基本思想3）bagging的基分类器如何选择？4）随机森林5、Stacking策略1）stacking的特点是什么？2）stacking的流程？7、常见问题1）为什么使用决策树作为基学习器？2）为什么不稳定的学习器更适合作

2021-06-17 10:32:14 120

原创【笔记】逻辑回归

【笔记】逻辑回归一、介绍篇1.1什么是逻辑回归LR是Logistic Regression Classifier，本质上是线性回归，特殊之处在于特征到结果的映射中加入了一层逻辑函数g(z)，即先把特征线性求和，然后使用函数**g(z)**作为假设函数来预测。g(z)可以将连续值映射到0 和1。逻辑回归使用的g(z)函数是sigmoid函数。因此逻辑回归=线性回归 + sigmoid。逻辑回归的表达式为σ(wTx)=11+e−wTx\sigma(w^Tx)=\frac{1}{1+e^{-w^Tx}

2021-06-17 00:34:53 192

原创【面筋】神经网络推导

【面筋】神经网络推导文章目录【面筋】神经网络推导激活函数为什么要激活函数？而且还是非线性的激活函数？没了激活函数会怎样？常用的激活函数手推证明：sigmoid会导致其下层所有神经元的权重更新方向一致；手推证明：ReLU神经元死亡将导致权重无法更新；优化算法SGDSGD-MSGD-NAAdaGradRMSProp/AdaDeltaAdamNadam网络层BP算法CNNRNNLSTMGRUBatch Normalization：Dropout模型语言模型word2vecTransformerBertXLNet

2021-06-16 21:21:09 149

原创【面筋】NLP面试问题和资料汇总

资源汇总：面试问答题目整理一下资料汇总，用作记录????DeepLearning-500-questions ： https://github.com/km1994/DeepLearning-500-questions16.1 如何理解序列到序列模型？16.2 序列到序列模型有什么限制吗？16.3 如果不采用序列到序列模型，可以考虑用其它模型方法吗？16.4 如何理解词向量？16.5 词向量哪家好？16.6 解释一下注意力机制的原理？16.7 注意力机制是不是适用于所有场景呢？

2021-06-16 20:11:40 258

原创【记录】去除中文

中文编码范围为\u4e00-\u9fff；去除中文可用如下方法；def clean(s): import re return re.sub('[\u4e00-\u9fff]', '/', s)

2021-06-10 14:00:44 444

原创【面筋】数据处理技巧

文章目录关于batch_size和learning_rate交叉验证1、什么是交叉验证？2、交叉验证的好处？3、交叉验证的方法1）留一法，leave one out (LOOCV)2) K折交叉验证 K-fold cross Validation脏数据处理------置信学习1、脏数据如何处理2、什么是置信学习？3、cleanLab使用1）置信学习方法怎么用？有什么开源框架？2）置信学习方法的工作原理？3）参考数据标注-------主动学习1、主动学习是什么？2、为什么需要主动学习？3、主动学习.

2021-06-08 16:43:28 149

原创【面筋】关于Python

【面筋】关于Python文章目录【面筋】关于Python一、什么是`*args` 和 `**kwargs`？1.1 为什么会有 *args 和 **kwargs？1.2 *args 和 **kwargs 的用途是什么？1.3 *args 是什么？1.4 **kwargs是什么？1.5 *args 与 **kwargs 的区别是什么？二、什么是装饰器？2.1 装饰器是什么？2.2 装饰器怎么用？三、Python垃圾回收（GC）3.1 垃圾回收算法有哪些？3.2 引用计数（主要）是什么？3.3 标记-清除是什

2021-06-08 13:34:15 1093 1

原创【面筋】基础概念

【面筋】基础概念文章目录【面筋】基础概念正则化（Regularization）1、正则化是什么？2、L0 正则化？3、L1 正则化（稀疏规则算法）4、L2 正则化（岭回归）4、dropoutNormalization1、归一化是什么？2、归一化的方法3、哪些机器学习算法需要做归一化？4、哪些机器学习算法不需要做归一化？BN 和 LN1、为什么神经网络中要进行Normalization2、Batch Normalization是什么？3、Layer Normalization是什么？过拟合和欠拟

2021-06-08 13:01:00 188

原创【面筋】关于实体识别

【面筋】关于实体识别文章目录【面筋】关于实体识别1）中文ner和英文ner的区别？2）中文基于字的实体识别有什么缺点?怎么改进?3）什么是词汇增强？4）为什么词汇增强对中文ner有效？5）实体识别有哪些方式？6）什么是嵌套实体识别？7）如何解决嵌套实体识别？1）中文ner和英文ner的区别？分词方式不同，英文使用空格可以准确分词，但中文分词有别去其他语言的分词方式，更复杂。分词的准确性对实体识别有影响，因此中文通常基于字；2）中文基于字的实体识别有什么缺点?怎么改进?中文ner通常视作一个序列标

2021-06-01 16:22:00 215

原创【笔记】使用Gensim模块训练词向量

【笔记】使用Gensim模块训练词向量文章目录【笔记】使用Gensim模块训练词向量1. 语料获取2. 训练word2vec1. 语料获取参考下载维基百科中文语料作为预训练数据集；下载地址： zhWiki[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传选择一个时间段进行下载，点进去，我们选择正文的语料，比如 zhwiki-20210120-pages-articles-multistream1.xml-p1p187712.bz2 ；下载完得到一个压缩包，WikiPed

2021-05-07 10:29:45 533 1

原创【记录】python将脚本目录添加到系统搜索路径

将脚本目录添加到系统搜索路径import os, sysfrom pathlib import Pathsys.path.append(str(Path(__file__).parent))举个例子：我的程序目录如下在train.py中调用data_loader.py中的类MyLoader()只需要逐级导入；from data_process.data_loader import MyLoader这个时候如果data_loader.py要调用它的同级目录下的其他脚本中的类，比如：da

2021-04-25 18:09:00 393

原创【笔记】条件随机场

【笔记】条件随机场文章目录【笔记】条件随机场1）介绍2）CRF中的特征函数1. CRF的特征函数2. 计算概率参考资料https://blog.csdn.net/weixin_41911765/article/details/82465697知乎CRF1）介绍条件随机场（Conditional Random Fields：CRF）是一个序列化标注算法，接收一个输入序列，并输出目标序列；举个例子：词性标注问题；非常简单的，就是给一个句子中的每个单词注明词性。比如这句话：Bob dr

2021-04-25 16:01:23 182

原创【总结】Transformer详解

【笔记】Transformer详解文章目录【笔记】Transformer详解1）模型结构2）细节1. self-attention2. Multi-Headed Attention3. Positional Encoding4. Layer normalization5. Mask3）总结《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 C

2021-04-22 18:29:35 310

原创【总结】Attention详解

【总结】Attention详解文章目录【总结】Attention详解1）Seq2Seq问题2）Attention机制（思想）3）Attention在Seq2Seq中的具体操作3）self-attention4）Multi-head Attention5）总结6）分析参考资料1）李2）苏3）雷锋网4）李宏毅老师论文原文：Attention is all you need1）Seq2Seq问题在序列标注的问题中，要求输入和输出序列等长，即N vs N 结构；但是在多数应用中，比如机器

2021-04-22 14:46:43 316

原创【笔记】关键词提取算法

【笔记】关键词提取算法文章目录【笔记】关键词提取算法1）TF-IDF1. 概念2. Python中实现2）TextRank1. PageRank2. TextRankTF-IDF和TextRank是自然语言处理当中比比较经典的关键词提取算法；1）TF-IDF1. 概念TF-IDF（Term Frequency - Inverse Document Frequency）TF(词频)表示词（关键字）在文档中出现的频率。公式为：TFw=文档中词w出现的次数文档中词条总数目TF_w = \fra

2021-04-20 17:55:55 166

原创【笔记】双语评估替补

【笔记】双语评估替补文章目录【笔记】双语评估替补1）介绍2）原理（原始精度）3）改进（改进精度）4）代码实现????1）介绍BLEU (Bilingual Evaluation Understudy)是一种用于机器翻译任务的评价指标；发布在ACL：《 BLEU: a Method for Automatic Evaluation of Machine Translation 》；understudy译作替补，指替代人工审核进行评估；本质上讲BLEU 就是用来衡量机器翻译文本与参考文本之间的相似程度

2021-04-20 14:49:11 262

git免安装版.zip

dataset.txt

sublime 文本查看工具

可供参考的刷题笔记.zip

Snipaste-2.5.1-Beta-x64.7z

httpFileService

neat-mouse.7z

空空如也