- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 深度学习正则化方法总结
机器学习模型为了提高模型的泛化性能、减少过拟合,通常都会采用一些正则化方法来控制模型的复杂度。深度学习模型比普通的机器学习模型更复杂,更容易过拟合,因此更需要进行正则化处理,本文总结下深度学习常用的14种正则化方法,提供一些参考。1、对权重参数增加L1、L2正则项 L1正则化主要是对损失函数增加权重参数w的绝对值项,权重服从Laplace分布,得到的参数通常比较稀...
2019-03-17 23:37:27
1685
原创 深度学习优化方法总结
1、SGDSGD算法是最基本的优化算法,首先批量采样,然后计算该批次样本的梯度,最后以学习率和梯度更新模型参数theta。2、SGD with momentum相对SGD算法,多了参数v,用来统计历史梯度累计和,另外通过参数alpha来控制历史梯度累加和对当前参数更新的影响。3、SGD with Nesterov和SGD with momentum算法的不同点在于,计算...
2019-03-08 18:19:39
339
原创 LSTM与GRU比较
RNN模型中使用得最多的是LSTM和GRU模型,LSTM主要通过输入门、输出门、遗忘门来有选择地遗忘,GRU类似,包含更新门、重置门两种门,本文主要对这2种模型对比下异同点,表示当前状态,表示上一个隐含层状态,表示输入,输入门、输出门、遗忘门都采用sigmoid函数,使最终结果限定在0到1范围。 (1)遗忘门 ...
2019-03-02 22:40:01
2670
原创 word2vec论文学习
Word2Vec是2003年由Tomas Mikolov提出的,有兴趣的可以阅读下论文《Efficient Estimation of Word Representations in Vector Space》,Word2Vec主要包含CBOW和Skip-gram两种架构,这两种架构与传统神经网络的区别在于没有隐含层,增加了投影层,具体结构如下图: CBOW(Conti...
2019-03-01 23:58:45
1270
原创 Item2Vec算法介绍
最早看到Item2vec是微软研究院的这篇文章(https://arxiv.org/vc/arxiv/papers/1603/1603.04259v2.pdf),本文主要是对这篇论文做一些介绍,Item2vec主要思想是借鉴了Word2Vec,并且采用SGNS(Skip-gram + Negative Sampling)的方法来生成物品向量,最后只需要计算当前浏览的物品与其它物品的向...
2019-03-01 22:46:18
2903
原创 基于随机梯度下降的SVD原理分享及Python代码实现
传统的SVD方法需要将rating分解成用户向量p和物品向量q,通常大型系统中p和q的维数都比较高,例如电商系统中,用户的维数甚至达到上亿维,进行这样的大矩阵分解还是比较困难的。另外,通常rating中包含大量的缺失值,一般采用平均值等方法来填充,但是这些填充值本身就不一定准确,因此会一定程度上影响后续的矩阵分解结果的准确性。所以一般采用近似的方法来构造用户向量p和物品向量q,常用的方...
2018-08-25 14:51:21
2945
4
原创 基于ML-DecisionTree的多标签分类算法
之前有一篇文章介绍了ML-KNN多标签分类算法,这里再介绍另一个算法ML-DT,算法思想比较简单,借鉴了决策树根据信息增益筛选特征生成分类器的思想,多标签场景下,信息增益表示的是该特征对所有标签的鉴别能力。 算法大致思想如下:首先计算每个特征的信息增益IG,挑选IG最大的特征来划分样本为左右子集,递归下去,直到满足停止条件(例如叶子节点中子集样本数量为100)结束,对未知样本,沿...
2018-04-12 11:13:41
6446
14
原创 基于ML-KNN的多标签分类算法
最近有一个项目需要用多标签分类思想来建模,之前对这块不是太了解,查了一些论文,发现目前主流的算法包括ML-KNN、ML-DT、Rank-SVM、CML等,其中ML-KNN算法思想最简单,结合原始论文,本文大概介绍下算法思想和代码实现。 ML-KNN借鉴了KNN的思想寻找K个近邻样本,并运用贝叶斯条件概率,来计算当前标签为1和0的概率,概率大的标签定为样本最终的标签,这就是ML-...
2018-04-12 10:41:50
17129
13
Effective STL
2007-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人