- 博客(444)
- 资源 (27)
- 收藏
- 关注

原创 【科研数据处理建模】SPSS实战操作生成36类常用论文研究案例,供学习参考
SPSS实战操作0 注意事项1 频数分析表2 交叉分析表3 分组汇总4 正态性检验5 单样本比率检验6 单样本T检验7 配对样本T检验8 两独立样本T检验9 单因素方差分析10 两因素方差分析(无交互作用)11 两因素方差分析(有交互作用)12 多因素方差分析13 协方差分析14 卡方拟合优度检验15 卡方独立性检验16 分层卡方检验17 配对卡方检验和Kappa一致性分析18 单样本wilcoxon检验19 配对样本wilcoxon检验20 Mann-Whitney 检验21 Kruskal-Wallis
2021-06-09 00:47:38
13422
8

原创 【机器学习15】决策树模型详解
决策树算法前言一、决策树算法的概述1.树模型2.树模型基本流程二、熵的作用三、决策树构造实例四、信息增益率和gini系数五、剪枝方法六、分类、回归任务七、树模型的可视化展示八、决策边界展示分析九、决策树预剪枝常用参数十、回归树模型总结前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的决策树的详细内容。一、决策树算法的概述1.树模型决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
2020-09-19 20:12:26
39640
26

原创 【python】将单元格中的多个数据拆分为多行数据(explode方法使用)
单元格多数据拆分1. 背景与需求2. 问题解决2.1 官方示例2.2 实际操作2.2.1 采坑2.2.2 问题纠错3. 问题解决4. 小结1. 背景与需求在处理数据中,往往需要做多维特征提取(一对多),如下:一个企业会有多个擅长领域,为了作多维度数据特征分析,需要将‘企业画像’中单元格的数据进行拆分成为一行一个特征的数据样式,且其他列数据保持不变,简单的demo(以随机两个公司为例)如下2. 问题解决这里需要使用pandas中的explode方法,注意此方法是在0.25.0版本之后才有,所以确
2020-05-23 17:19:30
14505
9

原创 【python】将自定义常用的一些函数封装成可以直接调用的模块方法
将常用一些的函数封装成可以直接调用的模块方法1. 背景2. 具体步骤3. 扩展1. 背景在实际的操作过程中,经常会用到一个功能,如果每次编写代码的时候都进行重新编写或者打开已经编写好的函数进行复制粘贴,这样就显得很麻烦,有没有什么方法可以像导入python模块的那样,直接把要用的函数以模块名+方法的形式调用呢?答案当然是可以的,比如做数据分析时候经常要使用的功能是:实现某一路径下的所有xlsx的合并,文件如下直接给出合并的函数,保留数据格式筛选的接口,将合并后的数据保存在fltered_data文
2020-05-17 17:05:42
18916
13

原创 【python】将python代码打包成系统可执行文件(Pyinstaller模块)
python文件打包输出可执行文件1. Pyinstaller模块下载2. Pyinstaller的使用2.1 打开命令行,指引文件路径2.2 直接生成可执行文件3. 常用指令3.1 修改图标3.2 修改名称3.3 修改路径1. Pyinstaller模块下载关于pyinstaller的介绍这里就不再复制粘贴了,可以自行百度,了解它是可以将python源代码打包成可执行文件的模块即可,打开命令...
2020-05-05 13:24:37
34744
24
原创 【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理
在进行项目背景介绍时,有时需要使用到有关标准进行背书,因此查询某一行业领域的标准信息就是第一步操作。该项目以海上风电相关标准的查询为例进行介绍,分别采用了get和post方式对于网页信息的爬取,借助集合获取两种查询平台结果的异同处理
2024-12-29 15:32:02
381
原创 【python科学文献计量】关于中国知网检索策略的验证,以事故伤害严重程度检索为例
对中国知网检索文献的策略进行验证,在核实过后,发现两种策略下载的数据集内容一致
2024-06-03 09:05:14
433
原创 【科学文献计量】利用python将中国知网文献导出的文件整理为文献引用格式+摘要正文,并写入到Word中
利用python将中国知网文献导出的文件整理为文献引用格式+摘要正文,并写入到Word中要求:一级标题为文献数据集介绍;二级标题为文献的引用格式;正文为摘要信息。并对Word进行相应的排版布局
2024-04-22 09:07:34
768
原创 【科学文献计量】剔除来自unknown的机构与作者文献文献——数据清洗
有时在研究过程中,会遇到不同类型的文献,但是有些文献中的数据会有部分缺失,常见的比如机构,作者和年份等字段,因此为了使用科研工具进行有效的文献计量,数据清洗就显着十分重要
2024-04-11 11:02:18
345
原创 【科学文献计量】筛选同一作者硕博论文和期刊文献(中文和外文)
在进行某一领域的研究中,由于文献数量较少,因此将中文期刊、中文硕博论文和外文期刊都进行整理。但是这种必然会存在一个问题问题:**硕博论文的一个主题(章节)会对应着中文期刊或者外文期刊**因此有必要筛选同一作者硕博论文和期刊文献,对数据集进行处理
2023-12-06 19:25:00
1095
原创 【科学文献检索】利用web of science的组配查询功能获取多次文献查询结果的差集、并集、交集
利用web of science的组配查询功能获取多次文献查询结果的差集、并集、交集
2023-12-06 15:17:42
920
原创 【科研建模】Industrial Accident Causal Analysis(Gold prize)
基于数据建模发现:从事故级别来看,一般事故级别的轻微风险很多,但潜在事故级别的严重风险也不少。由于有许多 TFIDF 特征与身体的某个部位相关,具有很高的重要性,特别是许多特征与手有关,如手、左手和右手,因此认为手工作业中的错误与事故的发生和严重程度有关。两者的两个事故的水平被认为不严重的水平下降的第一个和最后一个星期,但严重的水平没有多大变化。有了更详细的信息,如工厂的加工数据(如 CNC、电流、电压)、天气信息、员工的个人数据(如年龄、行业经验、工作表现),我们就能更正确地阐明事故原因。
2023-12-05 16:56:30
1537
原创 【nlp】4.5 迁移学习实践项目(相关概念、中文分类、填空、句子关系、模型微调)
迁移学习(Transfer Learning)是人工智能领域的一种重要方法,尤其在深度学习中发挥着关键作用。它的基本思想是:将在一个任务上学到的知识应用到另一个相关但不同的任务上。这种方法在处理数据量不足或者计算资源有限的情况下特别有用。本文介绍了中文分类、填空、句子关系和模型微调相关实例
2023-11-28 13:55:16
1085
原创 【nlp】4.4 Transformer库的使用(管道模式pipline、自动模式auto,具体模型BertModel)
管道(Pipline)方式:高度集成的极简使用方式,只需要几行代码即可实现一个NLP任务。(适合非专业人士)自动模型(AutoMode)方式:可载入并使用BERTology系列模型。(需要学习)具体模型(SpecificModel)方式:在使用时,需要明确指定具体的模型,并按照每个BERTology系列模型中的特定参数进行调用,该方式相对复杂,但具有较高的灵活度。(专业人士)
2023-11-27 13:08:34
1202
原创 【nlp】4.2 nlp中标准数据集(GLUE数据集合中的dev.tsv 、test.tsv 、train.tsv)
介绍nlp中的GLUE数据集,以及其中的数据结构样式
2023-11-26 15:27:22
1442
原创 【nlp】4.1 fasttext工具介绍(文本分类、训练词向量、词向量迁移)
作为NLP工程领域常用的工具包, fasttext有两大作用:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:补充知识点:层次softmax要比普通softmax要快训练词向量可以使用层次softmax结构,来提升超多类别下的模型性能为什么层次softmax要比普通softmax要快0 霍夫曼树特点 二叉树、带权二叉树1 文章中所有单词都挂在叶子节点上2 每个单词到根节点的路径path唯一(按照霍夫曼树生成方法进行编码)3 出现频率越大
2023-11-26 14:56:40
1690
原创 【nlp】3.6 Tansformer模型构建(编码器与解码器模块耦合)
介绍和复现Transformer综合模型,将之前复现的函数进行整合为Encode_Decode,最后借助make_model函数进行调用执行模型
2023-11-24 18:52:38
918
原创 【nlp】3.5 Transformer论文复现:3.解码器部分(解码器层)和4.输出部分(线性层、softmax层)
讲解和复现了Transformer架构中的解码层和解码器部分、以及输出部分Liner和Softmax层内容
2023-11-24 17:06:19
1429
原创 【nlp】3.4 Transformer论文复现:2. 编码器部分(规范化层、子层连接结构、编码器层)
对Transformer架构中编码器部分的规范化子层、子层连接结构、编码器层级编码器耦合过程进行说明,并进行了代码复现
2023-11-24 15:18:45
1694
原创 【nlp】3.3 Transformer论文复现:2. 编码器部分(掩码张量、多头注意力机制、前馈全连接层)
对Transformer架构中的掩码张量、多头注意力机制、前馈全连接层进行内容的讲解已经代码复现
2023-11-24 13:24:15
1928
原创 【nlp】3.2 Transformer论文复现:1. 输入部分(文本嵌入层和位置编码器)
对Transformer架构中的输入端中的文本嵌入层和位置编码层进行详细介绍,主要介绍了其作用、代码实现以及实操过程中的注意事项
2023-11-23 10:47:54
754
原创 【nlp】3.1 Transformer背景介绍及架构
在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer(也区分base、large、big的规模),其基本上可以看作是工业界的风向标, 市场空间自然不必多说!
2023-11-22 15:40:50
798
原创 【nlp】2.8 注意力机制拓展
如果Source是中文句子,Target是英文句子,那么这就是解决机器翻译问题的Encoder-Decoder框架;如果Source是一篇文章,Target是概括性的几句描述语句,那么这是文本摘要的Encoder-Decoder框架;如果Source是一句问句,Target是一句回答,那么这是问答系统或者对话机器人的Encoder-Decoder框架
2023-11-22 13:55:22
734
原创 【nlp】2.7 seq2seq英译法实战项目解析
seq2seq模型架构分析:seq2seq模型架构包括三部分,分别是encoder(编码器)、decoder(解码器)、中间语义张量c。其中编码器和解码器的内部实现都使用了GRU模型图中表示的是一个中文到英文的翻译:欢迎 来 北京 → welcome to BeiJing。编码器首先处理中文输入"欢迎 来 北京",通过GRU模型获得每个时间步的输出张量,最后将它们拼接成一个中间语义张量c;接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量, 逐个生成对应的翻译语言。
2023-11-21 21:16:10
669
原创 【nlp】2.6 注意力机制Attention
注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.说明: NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型.
2023-11-16 18:52:48
206
原创 【nlp】2.5(gpu version)人名分类器实战项目(对比RNN、LSTM、GRU模型)工程管理方式
本文是在【nlp】2.5(cpu version) 人名分类器实战项目(对比RNN、LSTM、GRU模型)的基础上更改gpu设置和增添了代码工程管理方式的应用
2023-11-16 17:23:20
1249
1
原创 【nlp】2.5(cpu version) 人名分类器实战项目(对比RNN、LSTM、GRU模型)
关于人名分类问题:以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等.数据格式说明 每一行第一个单词为人名,第二个单词为国家名。中间用制表符tab分割。
2023-11-14 22:02:16
1633
原创 【nlp】2.4 GRU模型
更新门重置门Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.
2023-11-14 16:38:13
875
原创 【nlp】2.3 LSTM模型
LSTM(Long Short-Term Memory)也称长短时记忆结构, 它是传统RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。
2023-11-14 15:02:19
580
原创 【nlp】2.2 传统RNN模型
我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.函数调用后输出结果如下。函数调用输出结果如下。
2023-11-14 12:23:49
554
原创 【nlp】2.1 认识RNN模型
RNN(Recurrent Neural Network),,中文称作循环神经网络,它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出。一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果,能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响。
2023-11-14 08:58:34
409
原创 【nlp】1.5 文本数据增强(回译法)
回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。补充:使用这个google_trans_new模块进行翻译的接口存在两个问题。处理完毕后,运行结果如下。调用函数输出结果如下。
2023-11-13 20:36:15
867
mysql和navicat.zip
2020-11-16
项目:知乎数据.zip
2020-05-08
数据爬取:六普常住人口数.zip
2020-05-08
中国全部31个省市区的经纬度信息数据(2020年4月29日爬取)
2020-04-29
鲁迅对于《祝福》中祥林嫂的情感倾向分析.ipynb
2020-03-26
projects.zip
2020-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人