- 博客(495)
- 资源 (115)
- 收藏
- 关注
原创 LLM Post-Training
方法优点缺点任务适应性:能够针对特定任务或领域进行优化,提升模型在该任务上的性能。数据驱动优化:利用标注数据直接调整模型参数,使模型更好地符合任务要求。广泛适用性:适用于多种任务,包括文本生成、问答、分类等。过拟合风险:可能导致模型在训练数据上表现良好,但在未见过的数据上性能下降。计算成本高:需要对整个模型或大量参数进行更新,计算资源消耗大。数据偏差敏感:如果训练数据有偏差,模型可能学习到错误的模式。动态优化:能够根据环境反馈动态调整策略,优化长期目标。
2025-04-15 00:09:50
397
原创 中科院推出满血版DeepSeek-V3/R1-617B全参数微调方案
由中国科学院自动化研究所和中科闻歌联合推出DeepSeek-V3/R1满血版671B全参数微调的开源解决方案【1】。包括了硬件、环境、部署等细节。另外,从这个项目中,一些常用的知识也值得我们去学习,相关知识点也列出了6个,方便后面一起学习。
2025-04-04 00:23:44
715
原创 vs code2025与MCP中的Continue
注意到这个图上面可以看到Accept|Reject这个是因为我操作了两次,有同名文件的相关代码,所以产生了版本冲突,这里在询问我接受与拒绝的情况。关于vs code2025的安装,详见: https://mp.weixin.qq.com/s/FvqSUrJFFXSVxFpZ6Q2-jg。操作: 选中代码,右键,选择Continue,选择Write a Dostring for this code。操作: 选中代码,右键,选择Continue,选择Write Comments for this Code。
2025-03-30 23:17:12
1010
原创 [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models
从效果来看,不论预训练模型的大小,LoRA采用更少的参数,可以达到全参模型的更好的效果。
2023-06-13 23:45:00
3000
1
原创 [论文阅读笔记76]GPT Understands, Too(P-tuning)
思想与之前的两篇的差不多,这篇也做了很多实验,效果大部分可与fine tuning进行比较了。挺好的。
2023-06-12 23:28:27
1247
1
原创 [论文阅读笔记75]P-Tuning v2
这个实验效果是可喜的,特别在NLU的任务上,一个优势时,预模型不用太大,另一个不用保存多一份模型的副本。还有一个,这里采用了CLS&linear head来代替经典的。
2023-06-08 23:45:00
1851
1
原创 [论文阅读笔记74]The Power of Scale for Parameter-Efficient Prompt Tuning
实验还是比较多,有新发现。跟prefix-tuning很相似的。只是用的语言不同。
2023-06-07 22:01:32
2344
1
原创 [论文阅读73]Prefix-Tuning:Optimizing Continuous Prompts for Generation
有种做数学题采用辅助线的感觉,保留了原来的东西不变,加入一些内容,让问题更好解决。虽然本质不同,可是真的有点像的。采用极少的参数去微调任务的适应性;采用一种连接的方法去挖掘其中的知识,NLP新一代的训练范式已来,软件的新一代的开发模式已来,以后大模型是一种不可或缺的内容。
2023-05-29 23:45:00
711
原创 [论文阅读72]Parameter-Efficient Transfer Learning for NLP
提出了与transformer相结合的adapter模型,可以在训练少参数的情况下达到全调的效果。想法很不错,效果也是比较好的。
2023-05-23 15:14:56
1078
1
原创 [论文阅读71]SELF-INSTRUCT
定义指定集为It\{I_t\}It每个指令定义成一个NLP任务t。对于每个任务又有数据实例XtYt(X_t,Y_t)XtYtMItxyforxy∈XtYtM({Itxyforxy∈XtYt举例:instance output y: 采用模型M业计算为了让模型生成多样性,x可设置为空的。
2023-03-21 22:45:38
808
1
原创 [论文阅读笔记70]基于token-token grid模型的信息抽取(5篇)
忽略三元组依赖信息,会造成级联错误与信息冗余,提出了OneRel: 把实体关系联合抽取看成fine-grained triple分类任务来处理,由scoring-based classififier 与 relation-specifific horns tagging strategy组成。效果SOTA。1. 把联合抽取任务转制换成一个粒度三元组分类问题。2. 提出了基于分数分类器与Rel-Spec Horns标注策略的单步联合单模型。评分函数会影响模型效率;在其实信息抽取任务的深探。
2022-10-18 02:00:00
1367
3
原创 [论文阅读笔记69]医学术语标准化-CODER
提出了KG的对比训练模型;对现有医疗嵌入进行评估。zero-shot术语标准化、医学概念相似性度量和概念关系分类任务中实现了最先进的结果( state-of-the-art);CODER是第一个跨语言的医学术语表示,支持英语、捷克语、法语、德语、意大利语,日语、葡萄牙语、俄语、西班牙语、荷兰语和汉语。...
2022-08-18 13:47:38
1378
原创 [论文阅读笔记67]Chinese NER by Span-Level Self-Attention
1. 基本信息题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong,Xin Xin,Ping Guo 北京理工大学201915th International Conference on Computational Intelligence and Security (CIS)1 Citations, 20 References论文链接:https://sci-hub.st/https://i
2022-03-29 23:30:00
1268
原创 [论文阅读笔记66]R-BERT
1. 基本信息题目论文作者与单位来源年份Enriching Pre-trained Language Model with Entity Information for Relation ClassificationShanchan Wu Yifan He Alibaba Group (U.S.) IncCIKM2019R-BERT128 Citations, 32 References论文链接:https://arxiv.org/pdf/1905.08284.p
2022-03-22 00:00:00
1344
1
原创 [论文阅读笔记65]Template-Based Named Entity Recognition Using BART
1. 基本信息题目论文作者与单位来源年份Template-Based Named Entity Recognition Using BARTLeyang Cui(Zhejiang University),Yu Wu(Microsoft Research Asia),Westlake UniversityACL2021 - Findings202118 Citations, 36 References论文链接: https://aclanthology.org
2022-03-05 00:00:00
4600
1
原创 [论文阅读笔记64]A Unified Generative Framework for Various NER Subtasks
1. 基本信息题目论文作者与单位来源年份A Unified Generative Framework for Various NER Subtasks复旦大学,邱锡鹏组ACL202113 Citations, 70 References论文链接: https://arxiv.org/pdf/2106.01223.pdf论文代码:https://github.com/yhcc/BARTNER2. 要点研究主题问题背景核心方法流程亮点数据集结论
2022-03-04 00:00:00
5719
12
原创 [论文阅读笔记63]Span-based Joint Entity and Relation Extraction with Transformer Pretraining
1. 基本信息题目论文作者与单位来源年份Span-based Joint Entity and Relation Extraction with Transformer Pre-trainingMarkus Eberts ,Adrian Ulges,莱茵曼应用技术大学ECAI201976 Citations, 50 References论文链接:https://arxiv.org/abs/1909.07755论文代码:https://github.com/marku
2022-03-03 13:49:01
821
2
原创 [论文阅读笔记62]KnowPrompt - Knowledge-aware Prompt-tuning with Synergistic Optimization for RE
1. 题目KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extractionthe paper has been accepted by WWW2022.Alibaba Group && Zhejiang University2. 模型2.1 摘要把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-
2022-02-14 18:01:28
2666
1
原创 [论文阅读笔记61]ClusTi:Clustering Method for Table Structure Recognition
Zucker, A., Belkada, Y., Vu, H. et al. ClusTi: Clustering Method for Table Structure Recognition in Scanned Images. Mobile Netw Appl 26, 1765–1776 (2021). https://doi.org/10.1007/s11036-021-01759-9法国巴黎索邦大学KeywordsTable structure recognitionObject rec.
2021-11-24 17:53:29
1021
原创 [论文阅读笔记60]Neuralizing Regular Expressions for Slot Filling
题目:Neuralizing Regular Expressions for Slot Filling(神经正则表达实体抽取) 上海科技大学,屠可伟团队摘要:解决Slot Filling任务,通过把符号规则转换神经网络相集成的方法进行研究。整体方案:预备知识:正则表达(略)FST(Fifinite State Transducer,有限状态转换器)查阅相关资料【6】:有限自动机(Finite Automata, FA) 是由一组有限的状态和状态转移的集合组成,其每一个转移
2021-11-11 12:59:30
674
原创 [论文阅读笔记59]TextBrewer(开源知识蒸馏NLP工具)
论文:TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing哈工大,讯飞1. 简介TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包, 融合并改进了NLP和CV中的多种知识蒸馏技术,提供便捷快速的知识蒸馏框架, 用于以较低的性能损失压缩神经网络模型的大小,提升模型的推理速度,减少内存占用。TextBrewer结构:流程:Sta
2021-09-26 12:08:15
1090
原创 [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey
1.题目Learning from Noisy Labels with Deep Neural Networks: A Survey作者团队:韩国科学技术院(KAIST)Song H , Kim M , Park D , et al. Learning from Noisy Labels with Deep Neural Networks: A Survey. 2020.2. 摘要重述问题:从监督学习的角度来描述使用标签噪声学习的问题;方法回顾:对57种最先进的鲁棒训练方法进行了全
2021-08-28 07:16:19
5716
原创 [论文阅读笔记57]NLP低资源的方法综述
1.题目A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios萨尔大学2.摘要(1)给出了当前致力于低资料NLP的广泛性与结构性概述;(2)分析低资源设置的不同方面;(3) 突出介绍必要的资源和数据假设,作为对从业者的指导;(4) 讨论开放问题与未来的展望。低资源的总体:3.相关综述生成额外标签数据Data Augmentation–使用有标注的样本信息,去扩
2021-08-28 07:14:09
1546
原创 [论文阅读笔记56]基于标注(NovelTagging方法)实体与关系联合抽取-ACL2017
论文:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme1. 题目Zheng S,Wang F,Bao H,et al.Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme.ACL 2017获得了Outstanding paper2. 背景研究关系与实体加联合学习的问题;本文只考虑了一个实体属于一个三元组
2021-08-18 22:59:45
1267
原创 [论文阅读笔记55]弱监督在电子病历的医学研究(之二)
论文都出自 Stanford University的 ,作者与[论文阅读笔记50]弱监督在电子病历的医学研究(之一)相同;论文2-(Nature):Ontology-driven weak supervision for clinical entity classification in electronic health records题目参考:Fries, J.A., Steinberg, E., Khattar, S. et al. Ontology-driven weak supervisio
2021-08-13 19:06:16
273
1
原创 [论文阅读笔记54]面向实体对齐的多视图知识图谱嵌入方法
1. 题目Multi-view Knowledge Graph Embedding for Entity Alignment面向实体对齐的多视图知识图谱嵌入方法论文:https://arxiv.org/pdf/1906.02390.pdf代码:https://github.com/nju-websoft/MultiKE2. 研究背景研究的问题:知识图(KGs)之间基于嵌入的实体对齐问题;目前存在问题:以前的方法主要是在实体关系结构上,后面也有把属性加入作为特征,可是也有大量的实体特征未被去
2021-08-13 19:05:33
1639
原创 [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述
1. 题目Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive SurveyTapas Nayak†, Navonil Majumder, Pawan Goyal†, Soujanya PoriaIIT Kharagpur, India 印度理工学院 – 被称为印度“科学皇冠上的瑰宝”Singapore University of Technology and Design, Singapore 新加坡科
2021-08-13 09:26:27
4161
1
原创 [论文阅读笔记52]深度学习实体关系抽取研究综述
来源:软件学报 20191.摘要:围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.2.经典的实体关系抽取方法有监督[基于特征和基于核函数的方法,研究词汇、句法和语义特征对实体语义关系抽取的影响]、半监督、弱监督和无监督3.定义实体关系抽取:是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系.—这里研究的时关系抽取,不讨论实体抽取.“实体关系抽取”这里不理解为“实体抽取与关系抽取”。基于深度学习
2021-08-10 21:46:22
1712
原创 [论文阅读笔记51]关系抽取【DNN】综述(监督与远程监督)
题目Deep Neural Network Based Relation Extraction: An Overview单位:University of Electronic Science and Technology of China内容1. 框架分为四个部分:数据集,句子表示,特征抽取,分类器这个框架是比加传统的关系抽取方法了。2. 相关概念Neural Networks:Convolutional Neural Networks (CNNs),Recurrent Neural Ne
2021-08-04 18:41:10
1408
原创 [论文阅读笔记50]弱监督在电子病历的医学研究(之一)
两篇论文都出自 Stanford University的 ,作者相同;论文1-(Nature):Medical device surveillance with electronic health records题目使用电子医疗记录去监控医疗设备https://www.nature.com/articles/s41746-019-0168-z.pdfhttps://github.com/som-shahlab/ehr-rweCallahan A , Fries J A , C Ré, et al
2021-08-03 17:45:20
248
原创 [论文阅读笔记49]UmlsBERT
题目UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus == 2020==滑铁卢大学使用UMLS的Metathesaurus进行上下文embedding的临床领域知识的增强研究的问题对于类似BioBert,Bio_ClinicalBERT这些预训练模型没有加入结构化专家数据;使用UMLS机
2021-07-20 22:41:03
522
1
原创 [论文阅读笔记48]BLURB
一,题目Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing作者:YU GU, ROBERT TINN, HAO CHENG, MICHAEL LUCAS, NAOTO USUYAMA, XIAODONG LIU, TRISTAN NAUMANN, JIANFENG GAO, HOIFUNG POON机构:Microsoft Research年份:2021二,研究背景三,主要内容
2021-07-20 09:44:53
708
fasttext.zip[windows]
2017-11-19
presto-cli-0.184-executable.jar
2017-09-24
apache-flume-1.7.0-bin.tar.gz
2017-09-23
apache-maven-3.3.9-bin.tar.gz
2017-09-16
hbase-1.3.1-src.tar.gz
2017-09-16
zookeeper-3.4.9.tar.gz
2017-09-15
tensorflow-0.12.1-cp35-cp35m-win_amd64
2017-02-22
zh_msra_onto4_mrc4ner.zip
2021-03-02
SemEval2010_task8_all_data
2020-05-25
en_core_web_sm
2020-05-25
sighan-bakeoff
2018-08-16
crf++_0.58[linux and win]
2018-01-14
Twisted系列教程等
2017-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人