自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(495)
  • 资源 (115)
  • 收藏
  • 关注

原创 LLM Post-Training

方法优点缺点任务适应性:能够针对特定任务或领域进行优化,提升模型在该任务上的性能。数据驱动优化:利用标注数据直接调整模型参数,使模型更好地符合任务要求。广泛适用性:适用于多种任务,包括文本生成、问答、分类等。过拟合风险:可能导致模型在训练数据上表现良好,但在未见过的数据上性能下降。计算成本高:需要对整个模型或大量参数进行更新,计算资源消耗大。数据偏差敏感:如果训练数据有偏差,模型可能学习到错误的模式。动态优化:能够根据环境反馈动态调整策略,优化长期目标。

2025-04-15 00:09:50 397

原创 推荐一个可用于推理模型的评估框架-Evalscope

推荐一个可用于推理模型的评估框架-Evalscope

2025-04-09 00:47:04 592

原创 中科院推出满血版DeepSeek-V3/R1-617B全参数微调方案

由中国科学院自动化研究所和中科闻歌联合推出DeepSeek-V3/R1满血版671B全参数微调的开源解决方案【1】。包括了硬件、环境、部署等细节。另外,从这个项目中,一些常用的知识也值得我们去学习,相关知识点也列出了6个,方便后面一起学习。

2025-04-04 00:23:44 715

原创 基于Contiue来阅读open-r1中的GRPO训练代码

基于vscode的continue来读open-r1的源码。

2025-04-04 00:06:02 503

原创 vs code2025与MCP中的Continue

注意到这个图上面可以看到Accept|Reject这个是因为我操作了两次,有同名文件的相关代码,所以产生了版本冲突,这里在询问我接受与拒绝的情况。关于vs code2025的安装,详见: https://mp.weixin.qq.com/s/FvqSUrJFFXSVxFpZ6Q2-jg。操作: 选中代码,右键,选择Continue,选择Write a Dostring for this code。操作: 选中代码,右键,选择Continue,选择Write Comments for this Code。

2025-03-30 23:17:12 1010

原创 [论文阅读笔记78]Stop Overthinking: 大语言模型的有效推理综述

stop overthinking

2025-03-30 00:01:40 599 1

原创 Visual Studio Code2025安装教程

vs_code_2025的安装。

2025-03-29 22:54:45 156

原创 MCP与数据库查询

MCP与数据库查询的使用demo.

2025-03-24 23:53:50 930

原创 大模型分布式训练

大模型分布式计算,是一个系统工程,下面通过基本概念、模型训练基础、通信息、并行策略、分布式训练框架等五个方面去初步疏理。

2025-03-21 00:16:55 326

原创 MCP导航|收录2864个MCP Server

收录2864个MCP Server.

2025-03-16 15:34:40 292

原创 [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

从效果来看,不论预训练模型的大小,LoRA采用更少的参数,可以达到全参模型的更好的效果。

2023-06-13 23:45:00 3000 1

原创 [论文阅读笔记76]GPT Understands, Too(P-tuning)

思想与之前的两篇的差不多,这篇也做了很多实验,效果大部分可与fine tuning进行比较了。挺好的。

2023-06-12 23:28:27 1247 1

原创 [论文阅读笔记75]P-Tuning v2

这个实验效果是可喜的,特别在NLU的任务上,一个优势时,预模型不用太大,另一个不用保存多一份模型的副本。还有一个,这里采用了CLS&linear head来代替经典的。

2023-06-08 23:45:00 1851 1

原创 [论文阅读笔记74]The Power of Scale for Parameter-Efficient Prompt Tuning

实验还是比较多,有新发现。跟prefix-tuning很相似的。只是用的语言不同。

2023-06-07 22:01:32 2344 1

原创 [论文阅读73]Prefix-Tuning:Optimizing Continuous Prompts for Generation

有种做数学题采用辅助线的感觉,保留了原来的东西不变,加入一些内容,让问题更好解决。虽然本质不同,可是真的有点像的。采用极少的参数去微调任务的适应性;采用一种连接的方法去挖掘其中的知识,NLP新一代的训练范式已来,软件的新一代的开发模式已来,以后大模型是一种不可或缺的内容。

2023-05-29 23:45:00 711

原创 [论文阅读72]Parameter-Efficient Transfer Learning for NLP

提出了与transformer相结合的adapter模型,可以在训练少参数的情况下达到全调的效果。想法很不错,效果也是比较好的。

2023-05-23 15:14:56 1078 1

原创 [论文阅读71]SELF-INSTRUCT

定义指定集为It\{I_t\}It​每个指令定义成一个NLP任务t。对于每个任务又有数据实例XtYt(X_t,Y_t)Xt​Yt​MItxyforxy∈XtYtM({It​xyforxy∈Xt​Yt​举例:instance output y: 采用模型M业计算为了让模型生成多样性,x可设置为空的。

2023-03-21 22:45:38 808 1

原创 [论文阅读笔记70]基于token-token grid模型的信息抽取(5篇)

忽略三元组依赖信息,会造成级联错误与信息冗余,提出了OneRel: 把实体关系联合抽取看成fine-grained triple分类任务来处理,由scoring-based classififier 与 relation-specifific horns tagging strategy组成。效果SOTA。1. 把联合抽取任务转制换成一个粒度三元组分类问题。2. 提出了基于分数分类器与Rel-Spec Horns标注策略的单步联合单模型。评分函数会影响模型效率;在其实信息抽取任务的深探。

2022-10-18 02:00:00 1367 3

原创 [论文阅读笔记69]医学术语标准化-CODER

提出了KG的对比训练模型;对现有医疗嵌入进行评估。zero-shot术语标准化、医学概念相似性度量和概念关系分类任务中实现了最先进的结果( state-of-the-art);CODER是第一个跨语言的医学术语表示,支持英语、捷克语、法语、德语、意大利语,日语、葡萄牙语、俄语、西班牙语、荷兰语和汉语。...

2022-08-18 13:47:38 1378

原创 [论文阅读笔记68]Sentence-BERT

sentence-transformers, 模型结构分两种,分类任务;回归任务

2022-07-23 15:59:25 833 1

原创 [论文阅读笔记67]Chinese NER by Span-Level Self-Attention

1. 基本信息题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong,Xin Xin,Ping Guo 北京理工大学201915th International Conference on Computational Intelligence and Security (CIS)1 Citations, 20 References论文链接:https://sci-hub.st/https://i

2022-03-29 23:30:00 1268

原创 [论文阅读笔记66]R-BERT

1. 基本信息题目论文作者与单位来源年份Enriching Pre-trained Language Model with Entity Information for Relation ClassificationShanchan Wu Yifan He Alibaba Group (U.S.) IncCIKM2019R-BERT128 Citations, 32 References论文链接:https://arxiv.org/pdf/1905.08284.p

2022-03-22 00:00:00 1344 1

原创 [论文阅读笔记65]Template-Based Named Entity Recognition Using BART

1. 基本信息题目论文作者与单位来源年份Template-Based Named Entity Recognition Using BARTLeyang Cui(Zhejiang University),Yu Wu(Microsoft Research Asia),Westlake UniversityACL2021 - Findings202118 Citations, 36 References论文链接: https://aclanthology.org

2022-03-05 00:00:00 4600 1

原创 [论文阅读笔记64]A Unified Generative Framework for Various NER Subtasks

1. 基本信息题目论文作者与单位来源年份A Unified Generative Framework for Various NER Subtasks复旦大学,邱锡鹏组ACL202113 Citations, 70 References论文链接: https://arxiv.org/pdf/2106.01223.pdf论文代码:https://github.com/yhcc/BARTNER2. 要点研究主题问题背景核心方法流程亮点数据集结论

2022-03-04 00:00:00 5719 12

原创 [论文阅读笔记63]Span-based Joint Entity and Relation Extraction with Transformer Pretraining

1. 基本信息题目论文作者与单位来源年份Span-based Joint Entity and Relation Extraction with Transformer Pre-trainingMarkus Eberts ,Adrian Ulges,莱茵曼应用技术大学ECAI201976 Citations, 50 References论文链接:https://arxiv.org/abs/1909.07755论文代码:https://github.com/marku

2022-03-03 13:49:01 821 2

原创 [论文阅读笔记62]KnowPrompt - Knowledge-aware Prompt-tuning with Synergistic Optimization for RE

1. 题目KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extractionthe paper has been accepted by WWW2022.Alibaba Group && Zhejiang University2. 模型2.1 摘要把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-

2022-02-14 18:01:28 2666 1

原创 [论文阅读笔记61]ClusTi:Clustering Method for Table Structure Recognition

Zucker, A., Belkada, Y., Vu, H. et al. ClusTi: Clustering Method for Table Structure Recognition in Scanned Images. Mobile Netw Appl 26, 1765–1776 (2021). https://doi.org/10.1007/s11036-021-01759-9法国巴黎索邦大学KeywordsTable structure recognitionObject rec.

2021-11-24 17:53:29 1021

原创 [论文阅读笔记60]Neuralizing Regular Expressions for Slot Filling

题目:Neuralizing Regular Expressions for Slot Filling(神经正则表达实体抽取)​ 上海科技大学,屠可伟团队​摘要:解决Slot Filling任务,通过把符号规则转换神经网络相集成的方法进行研究。整体方案:预备知识:正则表达(略)FST(Fifinite State Transducer,有限状态转换器)查阅相关资料【6】:有限自动机(Finite Automata, FA) 是由一组有限的状态和状态转移的集合组成,其每一个转移

2021-11-11 12:59:30 674

原创 [论文阅读笔记59]TextBrewer(开源知识蒸馏NLP工具)

论文:TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing哈工大,讯飞1. 简介TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包, 融合并改进了NLP和CV中的多种知识蒸馏技术,提供便捷快速的知识蒸馏框架, 用于以较低的性能损失压缩神经网络模型的大小,提升模型的推理速度,减少内存占用。TextBrewer结构:流程:Sta

2021-09-26 12:08:15 1090

原创 [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

1.题目Learning from Noisy Labels with Deep Neural Networks: A Survey作者团队:韩国科学技术院(KAIST)Song H , Kim M , Park D , et al. Learning from Noisy Labels with Deep Neural Networks: A Survey. 2020.2. 摘要重述问题:从监督学习的角度来描述使用标签噪声学习的问题;方法回顾:对57种最先进的鲁棒训练方法进行了全

2021-08-28 07:16:19 5716

原创 [论文阅读笔记57]NLP低资源的方法综述

1.题目A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios萨尔大学2.摘要(1)给出了当前致力于低资料NLP的广泛性与结构性概述;(2)分析低资源设置的不同方面;(3) 突出介绍必要的资源和数据假设,作为对从业者的指导;(4) 讨论开放问题与未来的展望。低资源的总体:3.相关综述生成额外标签数据Data Augmentation–使用有标注的样本信息,去扩

2021-08-28 07:14:09 1546

原创 [论文阅读笔记56]基于标注(NovelTagging方法)实体与关系联合抽取-ACL2017

论文:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme1. 题目Zheng S,Wang F,Bao H,et al.Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme.ACL 2017获得了Outstanding paper2. 背景研究关系与实体加联合学习的问题;本文只考虑了一个实体属于一个三元组

2021-08-18 22:59:45 1267

原创 [论文阅读笔记55]弱监督在电子病历的医学研究(之二)

论文都出自 Stanford University的 ,作者与[论文阅读笔记50]弱监督在电子病历的医学研究(之一)相同;论文2-(Nature):Ontology-driven weak supervision for clinical entity classification in electronic health records题目参考:Fries, J.A., Steinberg, E., Khattar, S. et al. Ontology-driven weak supervisio

2021-08-13 19:06:16 273 1

原创 [论文阅读笔记54]面向实体对齐的多视图知识图谱嵌入方法

1. 题目Multi-view Knowledge Graph Embedding for Entity Alignment面向实体对齐的多视图知识图谱嵌入方法论文:https://arxiv.org/pdf/1906.02390.pdf代码:https://github.com/nju-websoft/MultiKE2. 研究背景研究的问题:知识图(KGs)之间基于嵌入的实体对齐问题;目前存在问题:以前的方法主要是在实体关系结构上,后面也有把属性加入作为特征,可是也有大量的实体特征未被去

2021-08-13 19:05:33 1639

原创 [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

1. 题目Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive SurveyTapas Nayak†, Navonil Majumder, Pawan Goyal†, Soujanya PoriaIIT Kharagpur, India 印度理工学院 – 被称为印度“科学皇冠上的瑰宝”Singapore University of Technology and Design, Singapore 新加坡科

2021-08-13 09:26:27 4161 1

原创 [论文阅读笔记52]深度学习实体关系抽取研究综述

来源:软件学报 20191.摘要:围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.2.经典的实体关系抽取方法有监督[基于特征和基于核函数的方法,研究词汇、句法和语义特征对实体语义关系抽取的影响]、半监督、弱监督和无监督3.定义实体关系抽取:是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系.—这里研究的时关系抽取,不讨论实体抽取.“实体关系抽取”这里不理解为“实体抽取与关系抽取”。基于深度学习

2021-08-10 21:46:22 1712

原创 [论文阅读笔记51]关系抽取【DNN】综述(监督与远程监督)

题目Deep Neural Network Based Relation Extraction: An Overview单位:University of Electronic Science and Technology of China内容1. 框架分为四个部分:数据集,句子表示,特征抽取,分类器这个框架是比加传统的关系抽取方法了。2. 相关概念Neural Networks:Convolutional Neural Networks (CNNs),Recurrent Neural Ne

2021-08-04 18:41:10 1408

原创 [论文阅读笔记50]弱监督在电子病历的医学研究(之一)

两篇论文都出自 Stanford University的 ,作者相同;论文1-(Nature):Medical device surveillance with electronic health records题目使用电子医疗记录去监控医疗设备https://www.nature.com/articles/s41746-019-0168-z.pdfhttps://github.com/som-shahlab/ehr-rweCallahan A , Fries J A , C Ré, et al

2021-08-03 17:45:20 248

原创 [论文阅读笔记49]UmlsBERT

题目UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus == 2020==滑铁卢大学使用UMLS的Metathesaurus进行上下文embedding的临床领域知识的增强研究的问题对于类似BioBert,Bio_ClinicalBERT这些预训练模型没有加入结构化专家数据;使用UMLS机

2021-07-20 22:41:03 522 1

原创 [论文阅读笔记48]BLURB

一,题目Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing作者:YU GU, ROBERT TINN, HAO CHENG, MICHAEL LUCAS, NAOTO USUYAMA, XIAODONG LIU, TRISTAN NAUMANN, JIANFENG GAO, HOIFUNG POON机构:Microsoft Research年份:2021二,研究背景三,主要内容

2021-07-20 09:44:53 708

twisted例子

这个代码例子要结合之前上传的《Twisted系列教程等》这个一起看。

2017-12-05

思维导向图软件

mindmaster可以用来画思维导向图,感觉比较好用,分析时可以用。

2017-12-01

fasttext.zip[windows]

fasttext,基于windows的工具,可以用作文本分类,文本表达。FastText for Windows (2017-05-15)

2017-11-19

stopwords.txt

对于NLP中,需要要一些停用字典来对一些没有用的词删除,这里列了一些停用词。

2017-11-10

FINDING STRUCTURE WITH RANDOMNESS.pdf

FINDING STRUCTURE WITH RANDOMNESS.pdf描述了一系列的矩阵的方法。

2017-11-04

LDA数学八卦.pdf

LDA数学八卦,描述了LDA的数学,通俗易懂,是一个难得的学习材料 。

2017-11-04

SogouC.mini.20061102.rar

SogouC.mini.20061102.rar是一个简单的数据集,用来测试NLP算法的,为了大家的方便,故上传于此。

2017-10-25

presto-cli-0.184-executable.jar

presto-cli是presto的客户端工具,可用用这个工具来连接presto服务器的。可以实现交互式查询。 ./presto.jar --server 主机IP:主机port

2017-09-24

apache-flume-1.7.0-bin.tar.gz

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

2017-09-23

apache-maven-3.3.9-bin.tar.gz

hadoop,habase等大数据包的编译工具Maven. Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。

2017-09-16

hbase-1.3.1-src.tar.gz

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。是大数据的重要组成部分。

2017-09-16

zookeeper-3.4.9.tar.gz

zookeeper安装包。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。

2017-09-15

SQuirrel SQL

SQuirrel SQL是一个数据工具,可以连接多个数据,同时他可以连接presto数据库。 从某个方面来说,是一个比较好的数据库客户端工具。

2017-09-15

PANDAS文档

数据的dataframe处理库。

2017-05-15

numpy文件档

numpy文件,是机器学习的有用包numpy的API文档,是数据挖掘与机器学习的必备品。基于矩阵的操作包。

2017-05-15

scikit-learn-docs.pdf

scikit-learn文件,是机器学习的有用包sklearn的API文档,是数据挖掘与机器学习的必备品。

2017-05-15

python-3.5.2-amd64

python-3.5.2-amd64支持Tensorflow win7 64bit的python版本。

2017-02-22

tensorflow-0.12.1-cp35-cp35m-win_amd64

tensorflow-0.12.1-cp35-cp35m-win_amd64.whl 为win7【64bit】+python3.5.2[64bit]环境下可用的深度学习包,已经测试了。

2017-02-22

EasyBCD 中文

EasyBCD 中文 rar可以设置引导两个系统

2015-05-02

Spy4Win查看窗口

Spy4Win Spy 窗口信息 打开程序后,把这个图标拖动到相应的窗口上即可读取信息。

2015-04-30

Spy++查看窗口进程

Spy++ Lite是一款强有力的编程辅助工具,对分析窗体结构有独到之处。

2015-04-30

ProceXP监控进程

ProceXP监控进程可以用来反病毒

2015-04-30

PE Explorer查看PE

PE Explorer.rar可以查看PE的数据结构。

2015-04-30

StudPE查看PE

StudPE.rar可以查看PE,查看EXE是否合法。

2015-04-30

EasyBCD软件

EasyBCD.rar用来装多系统的引导。

2015-04-30

MSRA(NER).zip

MSRA.zip表示用来训练与测试NER任务的原数据。

2021-03-02

zh_msra_onto4_mrc4ner.zip

论文A Unified MRC Framework for Named Entity Recognition的预处理构建的中文的两个数据集数据。

2021-03-02

unlv_uw3.zip

表格标数据集unlv与uw3.

2020-12-24

SemEval2010_task8_all_data

论文《Classifying Relations by Ranking with Convolutional Neural Networks》中的数据集--SemEval2010_task8_all_data.

2020-05-25

en_core_web_sm

en_core_web_sm为spacy的数据模型,里面有两个版本,可以选择合适的版本。要不会出错,raise source.error('bad escape %s' % escape, len(escape));sre_constants.error: bad escape \p at position 257

2020-05-25

SQLiteExpertPro_64.rar

SQLiteExpertPro主要是用来查看sqlite数据的工具。

2020-05-20

spouse_data.zip

spouse_data为snorkel的入门例子数据集。

2020-05-19

labelimg标记工具

labelImg用来标记图片数据。 标记完数据之后用来训练。

2019-03-04

sighan-bakeoff

著名的Sighan Bakeoff语料。包含了训练集、测试集及测试集的(黄金)标准切分,同时也包括了一个用于评分的脚本和一个可以作为基线测试的简单中文分词器。

2018-08-16

pyke专家系统

pyke包了python2与python3的源码。这个是专家系统的一个包。

2018-08-03

rasa_core-master

rasa_core是开源的对话系统框架。通过这个框架可以快速搭建对话框架。

2018-07-06

x-pack-5.6.1_修改

x-pack-5.6.1.jar包,是对认证文件重新编译的,为学习ES提供一个好的学习环境,x-pack不会过期。

2018-02-22

luyten-0.5.0

luyten-0.5.0,是一个java反编译工具,可以把class文件反编译成java代码。

2018-02-22

crf++_0.58[linux and win]

CRF++ is a simple, customizable, and open source implementation of Conditional Random Fields (CRFs) for segmenting/labeling sequential data. CRF++ is designed for generic purpose and will be applied to a variety of NLP tasks, such as Named Entity Recognition, Information Extraction and Text Chunking.

2018-01-14

Twisted系列教程等

python网络框架twisted教程,事件驱动编程是一个编程范式, 这个程序是由外部事件来决定。通过事件循环及当事件发生时触发回调事件的使用是它的特点。另外两种常见的编程范式是(单线程)同步与多线程编程。

2017-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除