
机器学习
心之所向丶7
这个作者很懒,什么都没留下…
展开
-
房产行业聊天问答匹配 -pytorch方案
房产行业聊天问答匹配竞赛地址:https://www.datafountain.cn/competitions/474问题描述方案首先将该问题归结为NLP中的NSP任务(预测下一个句子),然后采用目前较为先进的基于chinese预训练的bert系的相关算法。在transformer库中这些算法的使用方式变得更为简单便捷,所以我们使用pytorch + transformer进行建模代码详细代码可见https://github.com/1JasonZhang/Q-A-matching-of-r原创 2020-11-17 10:08:45 · 837 阅读 · 0 评论 -
推荐系统冷启动问题的常见解决方案
转载来自 https://www.jianshu.com/p/97e46f933010本文在《推荐系统实践》(项亮)一书的基础上介绍一下推荐系统的冷启动问题。1.冷启动问题定义推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,对于BAT这类大公司来说,它们已经积累了大量的用户数据,不发愁。但是对于很多做纯粹推荐系统的网站或者很多在开始阶段就希望有个性化推荐应用的网站来说,如何在对用户一...转载 2018-03-08 17:26:00 · 23230 阅读 · 1 评论 -
机器、深度学习防止过拟合方法总结
1.从数据出发1.1进行数据增强,数据规范化,添加噪声数据,根据当前数据集生成一些训练数据2.使用合适的模型2.1调整网络结构,控制模型复杂度2.2设置训练早停止2.3增加正则项2.4在输入、权值中加入噪声3.结合多种模型利用集成学习的思想3.1bagging(random forest)3.2boosting(GBDT)3.3dropout...原创 2019-04-10 10:55:30 · 178 阅读 · 0 评论 -
数据预处理中标准化-归一化的区别
标准化:标准化需要计算特征的均值和标准差,公式表达为 归一化: 区别:简单来说,标准化是依照特...原创 2019-04-08 17:07:05 · 986 阅读 · 0 评论 -
XGBoost和GBDT区别
介绍了大体的四个区别,并不详细,仅做参考。1.传统GBDT以CART树作为基分类器,xgboost还支持线性分类器,可以为带L1和L2正则项的线性回归和逻辑回归。2.GBDT优化时只用到了一阶导数信息,xgboost对损失函数进行二阶泰勒展开,用到了一阶和二阶导数。3.xgboost在损失函数中加入正则项,控制模型的复杂度,防止过拟合。正则项中包含了树的叶子节点数和参数的L2范数。...原创 2019-04-09 21:17:42 · 1358 阅读 · 0 评论 -
pandas进行分组统计
需要获取foursquare中每个用户每个签到地点的频次可以用到pandas中groupby方法data_ny.groupby(by=['userId','venueId']).size()然后将userId ,venueId,频次写入csv中userId = []venueId = []count = []for i in data_gb: userId...原创 2019-05-31 15:18:01 · 4127 阅读 · 0 评论 -
不同数据循环使用同一模型tensorflow-gpu计算图后自动释放显存
https://stackoverflow.com/questions/39758094/clearing-tensorflow-gpu-memory-after-model-execution由于tensorflow中使用完gpu后并不会自动释放显存,所以在循环利用同一个计算图时会不停的累加显存,无法释放显存。然后从网上仅发现一种可行方案,即每次执行完计算图后都关闭当前进程,然后用其他进...原创 2019-08-21 10:40:51 · 2283 阅读 · 4 评论