- 博客(6)
- 收藏
- 关注
原创 spark机器学习实现之随机森林
还是按照以前交代的,通过接口配置sc,忘记的可查看 http://blog.csdn.net/wangkai198911/article/details/78728449通过sqlcontext直接创建dataframe,数据格式的为libsvm,label: double, features: vectorlabel即为分类标签,features是特征,以vector的方式进行保存//
2017-12-26 12:01:20
1813
3
原创 spark代码sc统一配置
之前写了两篇关于mlib的应用,其实都是在一个project内的,在创建sc的过程中,可以通过继承统一的trait简化sc的创建。val postgprop = new Properties val path = this.getClass.getResourceAsStream("/config.properties")读取相关配置文件key.name=valuejdbcURL=jdbc:m
2017-12-06 11:04:40
1946
原创 spark机器学习之als
今天分析一下als算法在spark mlib中的相关应用,关于原理性的东西,还是不多做介绍,als本身是协同过滤算法的一种,08年以来也是使用最频繁的协同过滤算法了。主要的原理性东西,推荐这篇博客: http://blog.csdn.net/antkillerfarm/article/details/53734658本文章在这里主要还是介绍als算法在spark mlib中的应用,以及在构建r
2017-12-06 10:21:46
600
原创 spark机器学习实现之fpgrowth
很久之前就像写一些关于数据挖掘算法的东西,因为懒现在才开始动手,因为fpgrowth算法在mlib中的实现 相对比较简单,所以打算先拿它下手。 关于fpgrowth的原理本人说的也不专业, 推荐 http://blog.csdn.net/huagong_adu/article/details/17739247这里主要写一下在mlib当中,实现的一个过程 先上代码Logger.getLog
2017-09-25 17:16:39
1362
原创 hadoop集群管理之文件分发
上一篇说了集群中怎样统一执行集群命令 http://blog.csdn.net/wangkai198911/article/category/7192845这里主要讲一下在集群中,如何去分发相关的配置文件,配置文件、hosts、bashrc等配置项 在集群中只需配置单一节点即可(一般在namenode上做配置就可以了)。配置完成后,采用统 一分发的模式,让各个节点完成统一。 配置文件de
2017-09-25 16:47:02
2707
原创 hadoop集群管理之统一执行
hadoop集群ssh打通之后,再进行一些统一的脚本执行等等操作时,可以通过脚本的方式进行,例如:全集群查看进程,统一分发配置文件等等。通过ssh+linux脚本,在namenode上就可以完成对整个集群的管理,这种方法也大大节省了集群的管理效率。这一部分我们先介绍统一命令执行的相关操作:脚本内容if [ $# -lt 2 ]then echo "Usage: ./runRemoteCmd
2017-09-25 10:55:33
572
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人