- 博客(7)
- 收藏
- 关注
原创 word2vec的理解
参考资料glovehttps://blog.csdn.net/linchuhai/article/details/97135612https://blog.csdn.net/codertc/article/details/73864097glove的缺点https://zhuanlan.zhihu.com/p/52070686文本表示方式https://easyai.tech/blog/nlp-领域里的8-种文本表示方式及优缺点/哈夫曼树https://blog.csd...
2021-12-17 23:36:43
268
原创 提取文档关键词——tfidf、textrank
本文介绍的是提取文本关键词的方法,包括tfidf以及textrank1 tfidftfidf内容原理比较简单,所以先占坑,有空再介绍2 textrank2.1 pageranktextrank来源于pagerank,所以我们先介绍下pagerank以下视频讲的非常清晰,很不错,关于pagerank的部分内容是来自于他的视频。https://www.bilibili.com/video/BV1m4411P76G?p=3&spm_id_from=pageDriver以上图为例,我们来解
2021-06-05 10:33:51
1852
原创 决策树的对比
决策树的演化:ID3->C4.5->CART下面用图表,直观地对比下这三种决策树1 如何选择要划分的特征1.1 我们的目的首先要了解的是,我们要做的事,是尽快的把如何衡量熵和基尼系统ID3在判断先对哪个特征进行划分时,是用的信息增益进行判断但是信息增益的缺点在于于是对信息增益进行了改进CART在C4.5的基础上,又进行了改进,使用的是基尼系数对缺失值的处理输入自变量目标因变量剪枝预剪枝和后剪枝不同的后剪枝方式https://blog.csdn.net/wei
2021-06-01 22:09:09
544
原创 逻辑回归原理
看了一个很不错的关于逻辑回归的视频,感觉很不错,整理一下https://www.bilibili.com/video/BV1As411j7zw逻辑回归,虽然名字里带有回归二字,其实是一个分类模型。为什么叫回归呢,我猜可能是逻辑回归也是在线性回归的基础上推导而来的假设我们有如下的样本,其中圆形代表的是+1,三角形代表的是-1.对于二分类问题而言,我们就是要找到一条线,把圆形和三角形分开。现在中间的那条线就是我们想要的线,它的函数是z=WX=w0+w1x1+w2x2线性回归的z的取值,是整个实数集,而
2021-05-30 23:42:46
228
2
原创 样本不平衡的处理
图片的样本不平衡可以通过裁剪、翻转等进行数据增强,由于没有做过图片的样本不平衡,所以这里先不说NLP的样本不平衡最近在进行文本分类时,发现存在样本不平衡的情况。于是我采用了网上说的几种方法,逐一进行数据增强,发现起到了效果。这些方法包括:随机近义词替换(基于已有的词典)随机近义词替换(基于训练好的word2vec模型)随机同音词替换(基于已有的词典)随机删除字词随机调换字词间的顺序反向翻译(先将中文翻译成英文,再通过翻译好的英文再翻译回中文)...
2021-05-27 20:29:41
416
原创 surprise库源码分析
surprise库源码分析欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样
2021-04-09 20:51:58
963
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人