- 博客(141)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
原创 机器学习(八):K-Means聚类原理与实战
kkk均值(kkk-means)聚类算法是一种经典的无监督聚类算法,本文将深入解析其理论原理,并在真是数据集上进行算法实践,话不多说,请看下文。以上便是本文的全部内容,如果感觉不错可以支持一下,若有任何问题敬请批评指正。
2025-04-01 19:22:51
1005
原创 Netty 连接存活检测——如何判断连接是否断开?
Netty 官方文档——ReadTimeoutHandler以上便是本文的全部内容,如果觉得不错可以支持一下博主,若有任何问题也敬请批评指正。
2025-03-15 22:11:17
504
原创 Log4j定制JSON格式日志输出
log4j是Java中一个强大的日志记录框架,通过简单的配置便可以在程序中进行日志打印与记录。关于log4j博主最近碰到一个需求,需要将程序运行过程中的日志按给定的json模板输出,本文记录一下log4j如何配置json格式的日志打印。
2025-02-10 14:42:57
908
原创 基于BiLSTM-CRF的中文电子病历命名实体识别
最近有粉丝在后台私信我能不能更一篇关于命名实体识别(NER,Named Entity Recognition)的经典模型BiLSTM-CRF的实战文章,前段时间有点忙所有一直没有更新,趁着最近有点空,满足一下这个粉丝的愿望,话不多说直接上干货。说明:为方便起见,本文沿用了之前的博客NLP实战:面向中文电子病历的命名实体识别中的数据集。关于命名实体识别的概念、实验评价指标、数据集介绍以及数据预处理的详细信息,同样可以参考我上面发布的博客。完整源代码地址!!
2024-12-09 18:47:03
1351
4
原创 Google Protocol Buffers快速入门指南
对于要序列化的数据结构,需要在.proto文件中定义相应的消息格式。// 使用proto3语法.proto文件中支持类似C/C++中的//和/*...*/两种注释。参考资料以上便是本文的全部内容,若是觉得不错的话可以支持一下,你们的支持是博主继续更新的不竭动力。若发现任何错误,也敬请批评指正!!!
2024-09-30 11:31:05
1136
原创 经典大语言模型解读(3):参数量更大、泛化性能更强的生成式模型GPT-2
GPT-2通过将参数数量提升一个数量级,采用字节对编码(BPE)技术进行文本编码,并在更广阔的数据集上进行预训练,同时在训练过程中将上下文长度增加了一倍。这些改进显著增强了GPT-2相对于其前身GPT-1的文本生成能力。以上便是本文的全部内容,若是觉得不错可以支持一下博主,你们的支持是博主更新的不竭动力。若是有任何问题也敬请批评指正。
2024-09-22 18:28:57
1198
原创 经典大语言模型解读(2):生成式预训练的先锋GPT-1
现实世界中包含了大量的文本语料数据,然而,绝大多数语料都是无标签的。为了充分利用这些无标签语料库,GPT1.0提出直接利用这些未标记的语料来进行生成式预训练,然后对每个特定任务进行判别式微调(在标注数据上),从而显著提升在这些任务上的性能。:文本蕴含,即给定一个前提文本(premise),根据这个前提文本去推断假说文本(hypothesis)与前提文本之间的关系,关系包括蕴含和矛盾两种。蕴含关系指能从前提文本推断出假说文本,而矛盾关系则指前提文本与假锁文本相矛盾。
2024-09-01 21:23:14
1076
1
原创 JNI调用C++方法指南
JNI(Java Native Interface)用来在Java中调用其他语言编写的代码。本文主要介绍如何在Java中调用C++程序。Java中提供了关键字,用于指示方法实现由本地代码来提供。对于C++程序而言,可以将源码打包为静态库或动态库。在JNI中通常使用动态库,这样可以避免将Java字节码和本地代码混合在同一个的二进制文件中。下面通过一个示例来演示JNI的具体用法。步骤1:定义Java类,其源代码如下:步骤2:通过命令编译Java源文件并自动生成C++头文件,生成的的源码如下:本地方法声明中
2024-08-30 19:59:33
1576
原创 经典大语言模型解读(1):BERT——基于双向Transformer的预训练语言模型
BERT(BEncoderRTransformer)是Google于2019年提出的预训练语言模型。与寻常的Transformer架构不同,该模型由双向Transformer编码器组成,双向编码使得BERT能够从左到右和从右到左编码上下文。BERT通过无标签语料数据,在精心设计的预训练任务**掩码语言模型(Masked LM)和下一句预测(Next Sentence Prediction, NSP)**的指导下进行预训练,所得到的模型具备出色的泛化能力。
2024-08-12 17:02:06
1089
原创 Docsify:快速用Markdown文档搭建网站的利器
对于经常写博客的人来说,markdown大家都不陌生。今天介绍一个在最近需求中碰到的软件Docsify,通过它能够将Markdown直接转换为网页。话不多说,下面直接介绍它的快速用法。
2024-07-29 23:16:24
851
原创 大模型背后的“英雄”——Transformer
如今大火的大模型背后许多都离不开Transformer,本文将带你深入了解Transformer的架构。
2024-04-18 11:17:24
1763
原创 ICML 2017: 基于卷积的Seq2Seq解决方案
通常而言,Seq2Seq解决方案一般都采用循环神经网络,但在本文,作者提出了基于卷积神经网络的解决方案**ConvS2S**。基于卷积神经网络的方案有两大优势:计算并行化更高,优化更容易(非线性的数量是固定的)。
2023-09-26 19:28:28
348
原创 预训练GNN:GPT-GNN Generative Pre-Training of Graph Neural Networks
本文提出了一种自监督属性图生成任务来预训练GNN,使得其能捕图的结构和语义属性。作者将图的生成分为两个部分:属性生成和边生成,即给定观测到的边,生成节点属性;给定观测到的边和生成的节点属性,生成剩余的边。通过这种方式使得模型能捕获每个节点属性和结构之间的依赖关系。对于每个节点,GPT-GNN可以同时计算其属性生成和边生成损失。另外,为了使得GPT-GNN可以处理大图,作者采用了子图采样技术,并提出自适应嵌入队列来缓解负采样带来的不准确损失。
2023-08-15 21:20:53
1494
原创 《Learning Combinatorial Optimization Algorithms over Graphs》阅读笔记
本文提出将强化学习和图嵌入的组合以端到端地自动为图上组合优化问题设计贪心启发式算法,以避免设计传统算法所需要的大量专业知识和试错。学得的贪心策略行为类似增量构造解决方案的元算法,动作由解决方案当前状态上的图嵌入网络确定。
2023-08-15 21:17:33
584
原创 《Rethinking the Expressive Power of GNNs via Graph Biconnectivity》阅读笔记
现如今存在许多工作探索GNN的表达能力,然而对于其中大多数方法,仍然缺乏对它们可以系统地和可证明地获取哪些额外表达力的深刻理解。在本文中,作者通过图双连通性(biconnectivity)引入一类新的表达能力度量,并指出现有大部分关于GNN表达能力的工作无法表达此类指标。
2023-08-15 21:12:57
721
原创 《Effects of Graph Convolutions in Multi-layer Networks》阅读笔记
本文研究了在XOR-CSBM数据模型的多层网络的第一层以上时,图卷积能力的基本极限,并为它们在数据中信号的不同状态下的性能提供了理论保证。在合成数据和真实世界数据上的实验表明a.卷积的数量是决定网络性能的一个更重要的因素,而不是网络中的层的数量。b.只要放置相同数量的卷积层,只要不在第一层,任何放置组合能实现相似的性能增强。c.当图相对稀疏的时候,多个图卷积是有利的。
2023-08-15 21:10:09
315
原创 《Allen-Cahn Message Passing for Graph Neural Networks with Particle Phase Transition》阅读笔记
本文从多粒子系统的角度引入排斥力到消息传递框架中,提出了ACMP模型。现有的大多数消息传递神经网络是由与Dirichlet能量相关的吸引力驱动的,相应的图神经网络存在oversmoothing问题,无法进行异配数据集预测。但倘若相互排斥的粒子始终保持排斥,随着时间推进,粒子之间会不断远离。为避免粒子被推到无穷远处,作者引入了Allen-Cahn项。
2023-08-15 21:06:55
227
原创 TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation
轨迹相似性计算在许多时空应用中都很重要。传统的相似性度量算法的二次复杂度无法处理大规模数据集,而基于RNN的解决方案在长轨迹上的性能会急剧下降。为此,作者提出了一种新的基于图的方法,即TrajGAT,来显式地建模层次空间结构,提高长轨迹相似度计算的性能。
2023-08-15 21:03:38
397
原创 CS144学习笔记(1):Internet and IP
网络应用可以在世界范围内交换数据,例如你可以通过浏览器读取出版社服务器提供的文章。网络应用的基本模型:两台主机各自在本地运行一个程序,程序通过网络来通信。最常用的通信模型使用,通信的两台主机可以想对方发送数据或读取对方发送过来的数据,双方也都可以主动断开连接。
2023-07-26 09:23:38
809
原创 Web Bench源码剖析
Web Bench是 基于C语言实现的Linux系统下的HTTP压力测试工具,可以模拟大量用户请求网站所需资源,测试服务器在不同并发情况下的负载能力。Web Bench通过`fork()`函数创建多进程的方式来模拟多个客户端,客户端可以发送`HTTP/0.9-HTTP/1.1`请求,请求类型包括`GET`、`HEAD`、`OPTIONS`、`TRACE`等。Web Bench的源码体积非常小,适合C/C++的学习者来阅读。
2023-06-13 09:09:42
378
原创 异配图神经网络——Graph Transformer Networks
作者提出了Graph Transformer Network (GTN)用来在异配图(heterogeneous graph)上学习节点表示。通过Graph Transformer层,模型能将异构图转换为由meta-path定义的多个新图,这些meta-paths具有任意的边类型和长度,通过在学得的meta-path对应的新图上进行卷积能获取更有效的节点表示。在几个异配图数据集上的实验结果也验证了GTN的有效性。
2023-04-15 23:26:48
3287
5
原创 《MixHop Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing》阅读笔记
之前的GCN及其后续工作在图卷积过程中,仅聚合自己的1-hop邻居的消息。作者指出可以将聚合扩大到不同距离的邻居,并基于该idea提出了MixHop,该模型能在不增加额外内存和计算复杂性的同时,生产更加表达能力的节点表示。实验结果表明作者设计的MixHop是有效的。
2023-04-15 23:21:15
957
原创 STL剖析(一):体系结构概览
STL全称是Standard Template Library,它属于泛型编程的范畴(泛型编程的代表性作品),泛型编程旨在编写独立于数据类型的代码,也就是说代码中的数据类型只有在编译的时候才会确定,否则为一个占位符。C++的STL中包含了各种常用的数据结构类模板以及操作这些数据结构的泛型算法。
2023-01-01 20:56:12
940
1
原创 基于图卷积神经网络的微博疫情情感分析
关于微博疫情情感分析,博主之前有过给过一套基于循环神经网络的解决方案——疫情微博内容情感分析。今天我们换一个视角,利用图卷积神经网络(Graph Convolutional Network, GCN)来解决该问题。关于数据集的介绍和预处理部分,本实验基本沿用之前的设置,想要了解的可以去看看博主的那篇博客。唯一不同之处在从训练集中划分出20%作为验证集。话不多说,直接上干货!!!
2022-09-20 21:41:26
3570
9
原创 K-hop消息传递图神经网络的表达能力有多强?
遵从1-hop消息传递范式的GNN的表达能力上限为Weisfeiler-Lehman test(1-WL test),为了获取更具表达能力的GNNs,学者提出了K-hop消息传递范式。本文作者先对K-hop消息传递的表达能力进行了分析,并整合外围子图信息来进一步改善K-hop消息传递的表达能力。
2022-09-08 15:29:07
3710
原创 如何为无属性图设置节点特征?
图神经网络(Graph Neural Networks, GNNs)在众多图相关的问题上都取得了优越的性能,而这成功的背后离不开图节点丰富的特征的支持。但是,事实上并不是所有的图节点都有特征,那么无属性图(no-attributed graphs)图神经网络又该如何处理呢?其输入该如何设计?本文便是对现有各种无属性图进行人工节点特征构造的总结。
2022-08-24 13:59:05
2577
原创 《Weisfeiler and Leman Go Neural Higher-order Graph Neural Networks》阅读笔记
本文阐明了GNN和WL Test的联系,并基于此提出了kkk-GNNs,该模式是kkk-WL在GNN上的泛化。另外,作者还提出了多粒度的层次kkk-GNN。在分类和回归任务的实验结果表明,kkk-GNNs比1-GNN的表达能力更强。
2022-08-11 22:11:43
1303
1
原创 GNN动手实践(三):适用于同配图和异配图的高效图神经网络——H2GCN
H2GCN是NeurIPS 2020上发表的论文《Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs》所提出来的一个同时适用于同配图和异配图的GNN模型。该模型官方也开源了相应的源码(Github),但是是Tensorflow实现的,为此,本文基于Pytorch+PyG来对该模型进行复现。......
2022-08-09 10:48:14
2992
4
原创 PyG教程(8):计算更高效的稀疏矩阵形式
在Pytorch Geometric中我们经常使用消息传递范式来自定义GNN模型,但是这种方法存在着一些缺陷:在邻域聚合过程中,物化x_i和x_j可能会占用大量的内存(尤其是在大图上)。然而,并不是所有的GNN都需要表达成这种消息传递的范式形式,一些GNN是可以直接表达为稀疏矩阵乘法形式的。在1.6.0版本之后,PyG官方正式引入对稀疏矩阵乘法GNN更有力的支持(torch-sparse中的SparseTensor),通过稀疏矩阵乘法能够让内存更高效,同时也加快了执行时间。...
2022-07-18 11:32:34
3411
10
原创 C++中的Lambda表达式
使用Lambda表达式的执行效率更高,虽然在其它编程语言如python中确实经常用它,但是C++中却用的很少。为此,我专门去学习了一下C++中的Lambda表达式,于是便有了此文。
2022-07-14 08:39:43
3205
2
原创 《Bag of Tricks for Node Classification with Graph Neural Networks》阅读笔记
论文地址:Bag of Tricks for Node Classification with Graph Neural Networks本文作者总结了前人关于图上半监督节点分类任务的常用Tricks,另外还提出了将节点特征和节点标签组合来进行训练和更鲁棒的损失函数,结果表明作者的设计是有效的,可供参考。...
2022-07-11 11:41:11
498
2
原创 《CGNF: CONDITIONAL GRAPH NEURAL FIELDS》阅读笔记
在大多数GNNs中,并没有考虑节点标签间的依赖性。为此,作者将条件随机场(Conditional Random Fields, CRF)和图卷积网络整合在一起提出了CGNF(Conditional Graph Neural Network),该模型显式地建模了整个节点标签集的联合概率,从而在节点标签预测任务中能够利用邻域标签信息。...
2022-07-01 11:32:25
565
原创 GNN动手实践(二):复现图注意力网络GAT
参考论文:Graph Attention NetworksGAT(图注意力网络)是GNNs中重要的SOTA模型,该模型是从空域角度来进行定义,能够用消息传递范式来进行解释。GAT与GCN最大的不同便是它在图节点邻域聚合的过程中引入了注意力机制来计算邻居对当前正在聚合的节点的重要程度。本文的内容包括:图注意力网络的架构介绍、基于PyG来复现GAT模型。...
2022-06-29 16:39:07
2625
2
原创 PyG教程(7):剖析邻域聚合
上篇文章《PyG教程(6):自定义消息传递网络》主要介绍了消息传递GNN的大致框架。本文主要聚焦于消息传播中的邻域聚合,本文将介绍PyG是如何将节点的邻居的消息聚合到节点本身的。
2022-06-21 11:45:23
1770
2
NLP-命名实体识别-BiLSTM-CRF
2024-12-09
基于图卷积神经网络的微博疫情情感分析实战
2023-03-21
NLP中文文本生成实战
2023-02-11
基于KMeans的中英文文档聚类
2023-01-19
UCI数据集上的机器学习分类算法实战
2023-01-19
NLP:面向中文电子病历的命名实体识别实战项目源码
2022-05-10
基于CNN的中文文本分类
2022-04-25
NNI自动调参示例项目
2022-03-05
处理连续属性的朴素贝叶斯实现
2022-01-10
深度学习交通流量预测新手入门实战项目源码
2021-11-03
NLP微博内容情感分类新人入门实战源码
2021-11-03
hadoop-eclipse-plugin-3.2.1.jar
2020-11-13
sakteBallGame.zip
2020-03-20
基于十字链表存储的稀疏矩阵的转置
2019-04-28
如何评价CSDN突然发通知说我之前的文章版权不明,不予通过?
2022-05-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人