- 博客(32)
- 资源 (3)
- 收藏
- 关注
原创 Day10【基于encoder- decoder架构实现新闻文本摘要的提取】
新闻摘要生成是自然语言处理(NLP)中的一个重要任务,其目标是自动从长篇的新闻文章中提取出简洁、准确的摘要。近年来,基于深度学习的摘要生成方法已成为主流,尤其是采用架构的模型。这个架构在机器翻译、文本摘要、文档标注、多模态交互等领域取得了显著的效果。
2025-04-19 20:45:00
1363
原创 Day10 【基于LSTM实现自回归语言模型文本续写任务】
本文基于给定的词表,将输入的文本以字符分割为若干个词,然后基于词表将词初步序列化作为训练网络的输入序列,将词后面一个词在词表中的序号作为输入标签,取连续序列文本片段长度作为输入序列的长度。之后经过`Embedding`、`LSTM`等网络层。因为生成的词是词表中某个词,因此模型输出为已知词表上的多类别概率分布,从而实现一个简单文本的续写任务。
2025-04-17 18:15:00
965
原创 Day09 【基于LSTM实现文本加标点的任务】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词初步序列化,之后经过`embedding``LSTM`等网络结构层,输出在已知类别标点符号标签上的概率分布,从而实现一个简单文本加标点任务。
2025-04-16 23:30:00
1060
原创 Day09【基于jieba分词和RNN实现的简单中文分词】
本文基于给定的中文词表,将输入的文本基于jieba分词分割为若干个词,词的末尾对应的标签为`1`,中间部分对应的标签为`0`,同时将分词后的单词基于中文词表做初步序列化,之后经过`embedding`和 `RNN`循环神经网络等网络结构层,最后输出在`两类别`(词内部和词边界)标签上的概率分布,从而实现一个简单中文分词任务。
2025-04-16 20:15:00
871
原创 Day09【基于新闻事件的命名实体抽取】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后基于词表将词序列化处理,之后经过若干网络层,最后输出在已知命名实体标注类别标签上的概率分布,从而实现一个简单新闻事件的命名实体识别。
2025-04-16 18:15:00
795
原创 Day08【基于预训练模型分词器实现交互型文本匹配】
本文基于预训练模型`bert`分词器`BertTokenizer`,将输入的文本以文本对的形式,送入到分词器中得到文本对的词嵌入向量,之后经过若干网络层,输出在已知2类别匹配或不匹配的概率分布,从而实现一个简单的句子对级别的匹配任务。
2025-04-15 23:30:00
1112
原创 Day09【基于Tripletloss实现的简单意图识别对话系统】
本文将实现基于`tripletloss`实现文本匹配,并实现简单的意图识别问答系统。
2025-04-15 23:00:46
1157
原创 Day08 【基于余弦相似度实现的表示型文本匹配】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词嵌入向量,而后基于不同的采样策略过网络层,得到文本的词嵌入特征向量,最后计算文本之间特征向量的余弦相似度,从而实现一个简单表示型文本的匹配方法。
2025-04-15 18:09:10
945
原创 Day08 【基于jieba分词实现词嵌入的文本多分类】
本文基于给定的词表,将输入的文本基于jieba分词分割为若干个词,然后将词映射到词表的大小的词潜入向量,之后经过网络层,输出在已知类别标签上的概率分布,从而实现一个简单文本的多分类。
2025-04-15 16:39:01
613
原创 Day08【基于FAQ实现单轮问答系统】
本文代码通过不同的文本匹配算法(如BM25、Word2Vec等)来实现一个基于FAQ的智能问答系统。通过加载知识库中的问题,算法会根据用户的查询返回最相关的答案或标。
2025-04-12 18:28:15
965
原创 Day08【使用不同的网络模型实现外卖评价情感分类】
本文通过自定义多种网络结构模型,通过对外卖评价数据处理,实现对评价数据的正负向情感分类。最终通过网格参数搜索方式,选择一组较好的网络结构参数,达到最佳分类准确率。
2025-04-12 16:18:03
968
原创 Day07 【手动实现bert网络结构】
本文代码通过手动实现矩阵运算来模拟 BERT 模型的核心部分,包括嵌入层、注意力机制、前馈网络、归一化层等。其主要目的是与 Hugging Face 提供的预训练 BERT 模型对比,检查自定义实现是否正确。
2025-04-09 00:10:41
753
原创 Day07【手动实现gru网络结构】
本节代码展示了如何使用NumPy模拟PyTorch的GRU层的计算过程。通过提取PyTorch的GRU权重,并将其转换为矩阵运算,可以深入帮助理解GRU的工作原理。
2025-04-08 19:16:50
921
原创 Day07【手动实现lstm网络结构】
通过手动实现 LSTM 的矩阵运算并与 PyTorch 的 LSTM 层进行对比,可以帮助我们更深入地理解 LSTM 网络的内部计算流程,尤其是如何处理时间步之间的状态更新。
2025-04-08 18:50:53
643
原创 Day06【使用Word2Vec模型训练词向量】
使用Word2Vec模型训练一个词向量模型,并进行一些基本的词向量操作,比如查找相似词和进行词向量的类比。训练一个基于Word2Vec的中文词向量模型,使用jieba进行中文分词。训练好模型后,保存为文件并可以加载来进行使用。提供一个功能来进行词向量类比(例如“男人 + 母亲 - 女人”)并输出与之最相似的词。提供一个交互式命令行界面,允许用户输入词语并查找最相似的词。
2025-04-05 12:24:15
961
原创 Day06【基于词向量使用svm实现文本分类】
本文基于词向量(Word2Vec),使用支持向量机(SVM)作为分类器来预测文本的类别,来实现文本分类任务。代码的功能是加载预训练的Word2Vec模型,并利用该模型将文本转化为向量,再用支持向量机(SVM)进行训练和预测,最后输出分类结果的报告。利用已训练好的 Word2Vec 模型,将新闻文本的标题转化为词向量。然后使用支持向量机(SVM)对这些词向量进行训练和分类。
2025-04-05 00:15:56
634
原创 Day04【判断文本中是否有某些特定字符出现】
基于pytorch的网络编写,实现一个网络完成一个简单nlp任务,判断文本中是否有某些特定字符出现。
2025-04-04 16:53:29
142
原创 Day03【实现一个自行构造的找规律(机器学习)任务】
规律:x是一个5维向量,判断第几个数最大,比如【2,5,4,3,1】实现一个自行构造的找规律(机器学习)任务。第2个数最大,标签为1,其他数标签为0。基于pytorch框架编写模型训练。
2025-04-04 16:26:13
194
原创 【手动实现梯度下降法】
最小化损失函数的方法通常采用梯度下降法,即沿着负梯度方向可以达到函数值不断下降,一直到下降到参数无法更新或损失值为极小值等停止。设定了神经网络的网络结构(特征映射层,隐含层,输出层),一旦有了输入样本,就可根据网络结构输出预测值。神经网络的训练目标是使预测值尽可能接近真实值,预测值和真实值的差异就可用损失函数描述,神经网络的学习目标即使损失函数尽可能小,求解损失函数最小值的过程就是反向传播算法,反向传播算法每一步都使用梯度下降法来更新当层的网络参数。更多详细原理可参考B站视频。更多详细推导过程参考。
2025-04-04 16:12:03
458
原创 Day02:数字图像处理--双线性插值(二)
双线性插值是一种基于周围四个邻域像素点值来估算目标位置像素值的插值方法。它不仅考虑了水平方向的邻近像素,还考虑了垂直方向的邻近像素。这使得插值结果比最近邻插值更加平滑。双线性插值是一种简单而高效的图像插值方法,广泛应用于图像缩放中。它通过考虑周围四个邻域像素的加权平均,能够平滑地计算目标图像的像素值。尽管它在某些情况下可能会有模糊现象,但相较于其他插值算法,双线性插值提供了良好的平衡,特别适合用于图像的快速缩放。
2024-12-24 23:20:34
745
原创 Day02:数字图像处理--灰度图与二值化(一)
本文介绍了如何使用 Python 和 OpenCV 进行图像的灰度化与二值化处理。灰度化和二值化是图像预处理的重要步骤,它们能够简化图像内容、去除冗余信息,为后续的图像分析和处理提供更简洁的图像表示。灰度化:通过加权平均 RGB 三个通道的值,将彩色图像转换为灰度图。二值化:通过选择阈值,将图像分为两类,常用于二分类任务或提取特征。
2024-12-24 22:29:59
2343
原创 Day01:使用pytorch实现Adam优化器及反向传播算法
Adam(Adaptive Moment Estimation)优化器是一种常用于训练深度学习模型的优化算法。它能够自适应调整学习率,适应不同参数的更新速度,因此它在许多深度学习任务中表现出色,尤其是在处理稀疏梯度和大规模数据时。
2024-12-04 21:54:40
632
1
原创 Day00:箱线图统计学知识
箱线图统计学知识上限值:Q1-1.5×IQR上相邻值:距离上限值最近的值须线:上下分位数各自与上下相邻值的距离上四分位数(Q1):一组数据按顺序排列,从小至大第25%位置的数值中位数:一组数据按顺序排列,从小至大第50%位置的数值中位线(IQR):Q3-Q1上四分位数至下四分位数的距离下四分位数(Q3):一组数据按顺序排列,从小至大第75%位置的数值下相邻值:距离下限值最近的值下限值:Q3+1.5×IQR离群值(异常值):一组数据中超过上下限的真实值温和异常值:1.5倍IQR开外.
2021-02-23 17:29:08
843
2
原创 关于python包安装本地网络不给力的问题
python Pycharm 更换pip源为国内镜像源,访问飞起 清华: https://pypi.tuna.tsinghua.edu.cn/simple/ 豆瓣: http://pypi.douban.com/simple/ 阿里: http://mirrors.aliyun.com/pypi/simple/ 使用命令pip install xx -i http://pypi.douban.com/simple ...
2021-02-23 15:13:31
93
转载 关于c++文件读写
转自https://www.cnblogs.com/Lin-Yi/p/11071822.html c++读写文本文件#include <iostream>#include <fstream> // 读写文件的头文件#include <string>using namespace std;/*1 文本文件 写文件 1 包含头文件 #include <fstream> 2 创建流对象...
2021-02-23 14:19:02
413
Day10【基于encoder- decoder架构实现新闻文本摘要的提取】
2025-04-19
Day06【贝叶斯实现文本分类】-新闻文本数据
2025-04-05
40天成为资深设计师(平面设计师资料)
2017-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人