自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (3)
  • 收藏
  • 关注

原创 Day10【基于encoder- decoder架构实现新闻文本摘要的提取】

新闻摘要生成是自然语言处理(NLP)中的一个重要任务,其目标是自动从长篇的新闻文章中提取出简洁、准确的摘要。近年来,基于深度学习的摘要生成方法已成为主流,尤其是采用架构的模型。这个架构在机器翻译、文本摘要、文档标注、多模态交互等领域取得了显著的效果。

2025-04-19 20:45:00 1363

原创 总结【过往部分项目经历二(计算机图形学方向)】

1.加强杆自动生成算法2.牙龈线序列批量算法3.光伏多阵列排布算法

2025-04-17 22:45:00 397

原创 总结【过往部分项目经历一(计算机图形学方向)】

1.蜂窝填充算法2.孔洞识别算法3.扫掠轮廓计算4.二维排料算法5.最大内接圆算法。

2025-04-17 22:30:00 820

原创 Day10 【基于LSTM实现自回归语言模型文本续写任务】

本文基于给定的词表,将输入的文本以字符分割为若干个词,然后基于词表将词初步序列化作为训练网络的输入序列,将词后面一个词在词表中的序号作为输入标签,取连续序列文本片段长度作为输入序列的长度。之后经过`Embedding`、`LSTM`等网络层。因为生成的词是词表中某个词,因此模型输出为已知词表上的多类别概率分布,从而实现一个简单文本的续写任务。

2025-04-17 18:15:00 965

原创 Day09 【基于LSTM实现文本加标点的任务】

本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词初步序列化,之后经过`embedding``LSTM`等网络结构层,输出在已知类别标点符号标签上的概率分布,从而实现一个简单文本加标点任务。

2025-04-16 23:30:00 1060

原创 Day09【基于jieba分词和RNN实现的简单中文分词】

本文基于给定的中文词表,将输入的文本基于jieba分词分割为若干个词,词的末尾对应的标签为`1`,中间部分对应的标签为`0`,同时将分词后的单词基于中文词表做初步序列化,之后经过`embedding`和 `RNN`循环神经网络等网络结构层,最后输出在`两类别`(词内部和词边界)标签上的概率分布,从而实现一个简单中文分词任务。

2025-04-16 20:15:00 871

原创 Day09【基于新闻事件的命名实体抽取】

本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词序列化处理,之后经过若干网络层,最后输出在已知命名实体标注类别标签上的概率分布,从而实现一个简单新闻事件的命名实体识别。

2025-04-16 18:15:00 795

原创 Day08【基于预训练模型分词器实现交互型文本匹配】

本文基于预训练模型`bert`分词器`BertTokenizer`,将输入的文本以文本对的形式,送入到分词器中得到文本对的词嵌入向量,之后经过若干网络层,输出在已知2类别匹配或不匹配的概率分布,从而实现一个简单的句子对级别的匹配任务。

2025-04-15 23:30:00 1112

原创 Day09【基于Tripletloss实现的简单意图识别对话系统】

本文将实现基于`tripletloss`实现文本匹配,并实现简单的意图识别问答系统。

2025-04-15 23:00:46 1157

原创 Day08 【基于余弦相似度实现的表示型文本匹配】

本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词嵌入向量,而后基于不同的采样策略过网络层,得到文本的词嵌入特征向量,最后计算文本之间特征向量的余弦相似度,从而实现一个简单表示型文本的匹配方法。

2025-04-15 18:09:10 945

原创 Day08 【基于jieba分词实现词嵌入的文本多分类】

本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词潜入向量,之后经过网络层,输出在已知类别标签上的概率分布,从而实现一个简单文本的多分类。

2025-04-15 16:39:01 613

原创 Day08【基于FAQ实现单轮问答系统】

本文代码通过不同的文本匹配算法(如BM25、Word2Vec等)来实现一个基于FAQ的智能问答系统。通过加载知识库中的问题,算法会根据用户的查询返回最相关的答案或标。

2025-04-12 18:28:15 965

原创 Day08【使用不同的网络模型实现外卖评价情感分类】

本文通过自定义多种网络结构模型,通过对外卖评价数据处理,实现对评价数据的正负向情感分类。最终通过网格参数搜索方式,选择一组较好的网络结构参数,达到最佳分类准确率。

2025-04-12 16:18:03 968

原创 Day07 【手动实现bert网络结构】

本文代码通过手动实现矩阵运算来模拟 BERT 模型的核心部分,包括嵌入层、注意力机制、前馈网络、归一化层等。其主要目的是与 Hugging Face 提供的预训练 BERT 模型对比,检查自定义实现是否正确。

2025-04-09 00:10:41 753

原创 Day07【手动实现gru网络结构】

本节代码展示了如何使用NumPy模拟PyTorch的GRU层的计算过程。通过提取PyTorch的GRU权重,并将其转换为矩阵运算,可以深入帮助理解GRU的工作原理。

2025-04-08 19:16:50 921

原创 Day07【手动实现lstm网络结构】

通过手动实现 LSTM 的矩阵运算并与 PyTorch 的 LSTM 层进行对比,可以帮助我们更深入地理解 LSTM 网络的内部计算流程,尤其是如何处理时间步之间的状态更新。

2025-04-08 18:50:53 643

原创 Day06【贝叶斯实现文本分类】

本文基于朴素贝叶斯分类器实现给定的文本(例如新闻标题)的分类,并预测其所属的类别。

2025-04-05 16:36:06 908

原创 Day06【使用Word2Vec模型训练词向量】

使用Word2Vec模型训练一个词向量模型,并进行一些基本的词向量操作,比如查找相似词和进行词向量的类比。训练一个基于Word2Vec的中文词向量模型,使用jieba进行中文分词。训练好模型后,保存为文件并可以加载来进行使用。提供一个功能来进行词向量类比(例如“男人 + 母亲 - 女人”)并输出与之最相似的词。提供一个交互式命令行界面,允许用户输入词语并查找最相似的词。

2025-04-05 12:24:15 961

原创 Day06【基于词向量使用svm实现文本分类】

本文基于词向量(Word2Vec),使用支持向量机(SVM)作为分类器来预测文本的类别,来实现文本分类任务。代码的功能是加载预训练的Word2Vec模型,并利用该模型将文本转化为向量,再用支持向量机(SVM)进行训练和预测,最后输出分类结果的报告。利用已训练好的 Word2Vec 模型,将新闻文本的标题转化为词向量。然后使用支持向量机(SVM)对这些词向量进行训练和分类。

2025-04-05 00:15:56 634

原创 Day05【实现字符串的正向最大匹配】

给定已知字符串和相关的词表集合,实现该字符串的正向最大匹配算法。

2025-04-04 17:25:35 142

原创 Day05【动态规划实现字符串所有切分集】

给定已知字符串和相关的词表集合,使用动态规划思想实现该字符串的所有切分方式。

2025-04-04 17:10:20 202

原创 Day04【判断文本中是否有某些特定字符出现】

基于pytorch的网络编写,实现一个网络完成一个简单nlp任务,判断文本中是否有某些特定字符出现。

2025-04-04 16:53:29 142

原创 Day03【实现一个自行构造的找规律(机器学习)任务】

规律:x是一个5维向量,判断第几个数最大,比如【2,5,4,3,1】实现一个自行构造的找规律(机器学习)任务。第2个数最大,标签为1,其他数标签为0。基于pytorch框架编写模型训练。

2025-04-04 16:26:13 194

原创 【手动实现梯度下降法】

最小化损失函数的方法通常采用梯度下降法,即沿着负梯度方向可以达到函数值不断下降,一直到下降到参数无法更新或损失值为极小值等停止。设定了神经网络的网络结构(特征映射层,隐含层,输出层),一旦有了输入样本,就可根据网络结构输出预测值。神经网络的训练目标是使预测值尽可能接近真实值,预测值和真实值的差异就可用损失函数描述,神经网络的学习目标即使损失函数尽可能小,求解损失函数最小值的过程就是反向传播算法,反向传播算法每一步都使用梯度下降法来更新当层的网络参数。更多详细原理可参考B站视频。更多详细推导过程参考。

2025-04-04 16:12:03 458

原创 MacOS M2使用MPS后端加速训练

使用MPS (Metal Performance Shaders) 后端加速训练词向量。

2025-04-03 22:54:26 407

原创 Day02:数字图像处理--双线性插值(二)

双线性插值是一种基于周围四个邻域像素点值来估算目标位置像素值的插值方法。它不仅考虑了水平方向的邻近像素,还考虑了垂直方向的邻近像素。这使得插值结果比最近邻插值更加平滑。双线性插值是一种简单而高效的图像插值方法,广泛应用于图像缩放中。它通过考虑周围四个邻域像素的加权平均,能够平滑地计算目标图像的像素值。尽管它在某些情况下可能会有模糊现象,但相较于其他插值算法,双线性插值提供了良好的平衡,特别适合用于图像的快速缩放。

2024-12-24 23:20:34 745

原创 Day02:数字图像处理--灰度图与二值化(一)

本文介绍了如何使用 Python 和 OpenCV 进行图像的灰度化与二值化处理。灰度化和二值化是图像预处理的重要步骤,它们能够简化图像内容、去除冗余信息,为后续的图像分析和处理提供更简洁的图像表示。灰度化:通过加权平均 RGB 三个通道的值,将彩色图像转换为灰度图。二值化:通过选择阈值,将图像分为两类,常用于二分类任务或提取特征。

2024-12-24 22:29:59 2343

原创 Day01:使用pytorch实现Adam优化器及反向传播算法

Adam(Adaptive Moment Estimation)优化器是一种常用于训练深度学习模型的优化算法。它能够自适应调整学习率,适应不同参数的更新速度,因此它在许多深度学习任务中表现出色,尤其是在处理稀疏梯度和大规模数据时。

2024-12-04 21:54:40 632 1

原创 Day01:使用pytorch实现一个简单的RNN网络

【代码】Day01:使用pytorch实现一个简单的RNN网络。

2024-12-04 21:33:52 413

原创 Day00:箱线图统计学知识

箱线图统计学知识上限值:Q1-1.5×IQR上相邻值:距离上限值最近的值须线:上下分位数各自与上下相邻值的距离上四分位数(Q1):一组数据按顺序排列,从小至大第25%位置的数值中位数:一组数据按顺序排列,从小至大第50%位置的数值中位线(IQR):Q3-Q1上四分位数至下四分位数的距离下四分位数(Q3):一组数据按顺序排列,从小至大第75%位置的数值下相邻值:距离下限值最近的值下限值:Q3+1.5×IQR离群值(异常值):一组数据中超过上下限的真实值温和异常值:1.5倍IQR开外.

2021-02-23 17:29:08 843 2

原创 关于python包安装本地网络不给力的问题

python Pycharm 更换pip源为国内镜像源,访问飞起 清华: https://pypi.tuna.tsinghua.edu.cn/simple/ 豆瓣: http://pypi.douban.com/simple/ 阿里: http://mirrors.aliyun.com/pypi/simple/ 使用命令pip install xx -i http://pypi.douban.com/simple ...

2021-02-23 15:13:31 93

转载 关于c++文件读写

转自https://www.cnblogs.com/Lin-Yi/p/11071822.html c++读写文本文件#include <iostream>#include <fstream> // 读写文件的头文件#include <string>using namespace std;/*1 文本文件 写文件 1 包含头文件 #include <fstream> 2 创建流对象...

2021-02-23 14:19:02 413

Day10【基于encoder- decoder架构实现新闻文本摘要的提取】

用于文本生成的新闻文本数据,包含文本内容和文本摘要

2025-04-19

Day10【基于encoder- decoder架构实现新闻文本摘要的提取】

词表文件,包含PAD UNK CLS SEP MASK标记符号,用于transformer文本生成训练

2025-04-19

Day10 【基于LSTM实现文本续写任务】

文本生成所用的语料文件

2025-04-16

Day09 【基于LSTM实现文本加标点的任务】

验证集文本数据

2025-04-16

Day09 【基于LSTM实现文本加标点的任务】

训练集文本数据

2025-04-16

Day09【基于jieba分词和RNN实现的简单中文分词】

中文语料文件,用于中文分词训练任务

2025-04-16

Day09【基于新闻事件的命名实体抽取】

关于新闻事件的命名实体的测试集数据

2025-04-15

Day09【基于新闻事件的命名实体抽取】

关于新闻事件的命名实体的训练集数据

2025-04-15

Day08 【基于jieba分词在词潜入编码的文本多分类】

验证集数据

2025-04-15

Day08 【基于jieba分词在词潜入编码的文本多分类】

训练集数据

2025-04-15

Day08【使用不同的网络模型实现外卖评价数据情感分类】

用于训练及测试的源数据文件

2025-04-12

MacOS M2使用MPS后端加速训练-RNN训练语料文件

包含一个字符表文件vocab.txt,和新闻几个栏目文件(放在corpus目录下)

2025-04-05

Day06【基于词向量使用svm实现文本分类】-训练好的词向量模型权重文件

基于Word2Vec训练好的词向量模型文件

2025-04-05

Day06【使用Word2Vec模型训练词向量】-词向量训练

用于词向量训练等语料文件

2025-04-05

Day06【贝叶斯实现文本分类】-新闻文本数据

每一行都是一类新闻栏目数据,总类别涵盖军事、国际、彩票、游戏、旅游、财经、股票、科技、汽车、体育、文化、家居、健康、教育、房产、娱乐、时尚、社会等多种。

2025-04-05

40天成为资深设计师(平面设计师资料)

这本电子书是陪伴在你身边的老师,就像《棋魂》中的佐为一样,他陪伴在进腾光身边,让进腾光的棋艺突飞猛进,现在有了这本书,你也可以在印前技术上突飞猛进。《40天成为资深设计师》一点也不夸张,一个人可以狂一点,从学校出来可以要三千的月薪,因为你已经是行家里手,参加工作以后对待遇不满意也可以跳槽,凭实力去要求高薪。当你能够独当一面时,也可以选择自己创业。

2017-06-01

MapInfo Professional用户指南(精简版).pdf

MapInfo Professional 7.5版本 用户基础入门教程,轻松搞定Mapinfo

2017-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除