- 博客(15)
- 收藏
- 关注
原创 Spark Streaming 和 Flume-NG的整合
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。Spark Streaming流式处理系统特点有: 将流式计算分解成一系列短小的批
2015-01-19 16:46:41
1718
原创 SparkStreaming和Kafka的整合
spark自带的example中就有streaming结合kafka使用的案例:$SPARK_HOME/examples/src/main/scala/org/apache/spark/examples/streaming/KafkaWordCount.scala使用方法参见代码描述:Usage: KafkaWordCount is a list of one
2015-01-15 15:18:09
1258
原创 RedHat下完美安装scrapy爬虫框架
Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。下面记录一下从安装Python到安装scrapy的过程,最后,通过执行命令进行抓取数据来验证我们所做的安装配置工作。操作系统:RedHat 6.5Python版本:Python-2.7.3zope.interface版本:zope.interface-4.0.1.tar.gz
2014-12-31 14:28:27
1555
原创 spark1.0.x完美运行在yarn上
1. 搭建环境 CentOS6.5 + hadoop2.2.0 + spark 1.0.x2.spark on yarn 上 前提是:已经安装了hadoop2.2.0的集群,hadoop集群的详细安装步骤我累述了。 1. 下载spark1.0.0版本 地址: http://d3kbcqa49mib13.cloudfron
2014-12-10 10:55:55
736
转载 mahout入门指南
最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱。折腾了一番,终于搞清楚了。为了让新手们较快入门,决定总结分享一下,写此入门指南。mahout是什么?mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法。实现方式有单机内存版,也有分布式(hadoop和spark)。mahout如何快速入门?个人觉得单机
2014-12-06 17:12:21
606
转载 Mahout推荐算法基础
Mahout主要推荐算法Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法:1.基于用户的相似度2.相近的用户定义与数量特点:1.易于理解2.用户数较少时计算速度快 GenericItemBasedRecommender算法:1.基于item的相似度
2014-11-24 21:30:52
556
原创 Mahout中相似度计算方法介绍
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件
2014-11-24 21:28:36
497
原创 HBase和Hive的整合
为用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的hql查询.hive也即做数据仓库
2014-11-12 16:14:20
809
原创 HBase的集群搭建和使用
1. HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利 用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。
2014-11-11 23:05:18
620
转载 大数据实时计算工程师/Storm工程师职业学习路线图
描述 本路线图系列课程是一个专门针对大数据实时处理架构所设计的课程体系,包括了从数据收集框架、集群协调框架、数据缓存框架到实时计算框架都全面进行深度解析,让一个普通的开发人员迅速成为实时计算领域的领跑者。也从整体架构上给出了一个实时计算可以践行的基础架构和实时业务处理方法。 学习目标通过本套课程的学习,能让学习者迅速的了解实时计算以及周边框架的使用方式并能将实时计算
2014-11-07 13:12:57
1018
原创 CentOS6.5下spark分布式集群的搭建
Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序。下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell环境可以直接
2014-11-05 17:04:27
1950
转载 flume-ng+Kafka+Storm+HDFS+jdbc 实时系统搭建的完美整合
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE 之前在弄这个的时候,
2014-11-04 14:37:34
1558
转载 ubuntu12.04+storm0.9.2 分布式集群的搭建
目录: 一、什么是STORM? 二、STORM的官方网站在哪里? 三、在哪里下载?需要哪些组件的支持? 四、如何安装? 五、FAQ 一、什么是STORM? 在上一篇文章《mac10.9下eclipse的storm开发环境搭建》中,已经有详细的介绍。 二、STORM的官方网站在哪里? http://storm.incubato
2014-11-04 14:15:05
1299
转载 kafka2.9.2的分布式集群安装和demo(java api)测试
目录: 一、什么是kafka? 二、kafka的官方网站在哪里? 三、在哪里下载?需要哪些组件的支持? 四、如何安装? 五、FAQ 六、扩展阅读 一、什么是kafka? kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ
2014-11-04 13:56:18
1807
转载 Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例
目录: 一、什么是Flume? 1)flume的特点 2)flume的可靠性 3)flume的可恢复性 4)flume 的 一些核心概念 二、flume的官方网站在哪里? 三、在哪里下载? 四、如何安装? 五、flume的案例 1)案例1:Avro 2)案例2:Spool 3)案例3:Exec
2014-11-04 11:23:05
1242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人