- 博客(5)
- 收藏
- 关注
原创 spark mLlib ALS 交替最小二乘
ALS 交替最小二乘ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如:将用户(user)对商品(item)的评分矩阵分解为两个矩阵:一个是用户对商品隐
2016-08-11 16:46:21
1183
原创 spark 1.6 MLlib 协同过滤
简单介绍spark的协同过滤的矩阵分解采用ALS来计算,具体实现了算法以下参数 - numBlocks:数据划分为多少block进行并行计算,设置成-1时为自动配置 - rank:模型的潜在因子(主特征数目) - iterations:模型运行迭代次数 - lambda:ALS的规则化参数 - implicitPrefs:是采用显式评分方式还是隐式反馈数据,即是用户打分,还是用户访问等隐式
2016-08-11 16:45:33
681
转载 spark性能调优
案例1:背景介绍对一个容量为300g的客户信息表在spark上进行查询优化,该大宽表有1800多列,有效使用的有20列优化效果查询由原来的40.232s降低为2.7s优化过程使用压缩gzip:整个数据文件无法放置到内存,数据存在大量0和1的值,40s降低到20s使用行列混存rcfile、parquetfile:大宽表有1800多列,但是常用只是20列,20s降低到12s使用kyro序列化:CP
2016-08-05 16:53:48
469
原创 1. spark ML概述
ML组件ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个dataFrame,例如把一个包含特征的dataFrame通过模型预测,生成一个包含特征和预测的data
2016-06-16 17:24:39
2316
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人