疯流小子-CSDN博客

原创 Spark Streaming 和 Flume-NG的整合

SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似map、reduce、join、window等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘。Spark Streaming流式处理系统特点有：将流式计算分解成一系列短小的批

2015-01-19 16:46:41 1718

原创 SparkStreaming和Kafka的整合

spark自带的example中就有streaming结合kafka使用的案例：$SPARK_HOME/examples/src/main/scala/org/apache/spark/examples/streaming/KafkaWordCount.scala使用方法参见代码描述：Usage: KafkaWordCount is a list of one

2015-01-15 15:18:09 1258

原创 RedHat下完美安装scrapy爬虫框架

Scrapy是一款非常成熟的爬虫框架，可以抓取网页数据并抽取结构化数据，目前已经有很多企业用于生产环境。下面记录一下从安装Python到安装scrapy的过程，最后，通过执行命令进行抓取数据来验证我们所做的安装配置工作。操作系统：RedHat 6.5Python版本：Python-2.7.3zope.interface版本：zope.interface-4.0.1.tar.gz

2014-12-31 14:28:27 1555

原创 spark1.0.x完美运行在yarn上

1. 搭建环境 CentOS6.5 + hadoop2.2.0 + spark 1.0.x2.spark on yarn 上前提是：已经安装了hadoop2.2.0的集群，hadoop集群的详细安装步骤我累述了。 1. 下载spark1.0.0版本地址： http://d3kbcqa49mib13.cloudfron

2014-12-10 10:55:55 736

转载 mahout入门指南

最近在研究mahout，网上找了一些入门资料来看，发现都整理的比较乱。折腾了一番，终于搞清楚了。为了让新手们较快入门，决定总结分享一下，写此入门指南。mahout是什么？mahout是一个机器学习库，里面实现了一些算法，比如推荐算法，聚类算法。实现方式有单机内存版，也有分布式（hadoop和spark）。mahout如何快速入门？个人觉得单机

2014-12-06 17:12:21 606

转载 Mahout推荐算法基础

Mahout主要推荐算法Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法：1.基于用户的相似度2.相近的用户定义与数量特点：1.易于理解2.用户数较少时计算速度快 GenericItemBasedRecommender算法：1.基于item的相似度

2014-11-24 21:30:52 556

原创 Mahout中相似度计算方法介绍

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的，这类算法通常都需要计算用户与用户或者项目与项目之间的相似度，对于数据量以及数据类型不同的数据源，需要不同的相似度计算方法来提高推荐性能，在mahout提供了大量用于计算相似度的组件，这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系：图1、项目相似度计算组件图2、用户相似度计算组件

2014-11-24 21:28:36 497

原创 HBase和Hive的整合

为用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的hql查询.hive也即做数据仓库

2014-11-12 16:14:20 809

原创 HBase的集群搭建和使用

1. HBase简介 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协调工具。

2014-11-11 23:05:18 620

转载大数据实时计算工程师/Storm工程师职业学习路线图

描述本路线图系列课程是一个专门针对大数据实时处理架构所设计的课程体系，包括了从数据收集框架、集群协调框架、数据缓存框架到实时计算框架都全面进行深度解析，让一个普通的开发人员迅速成为实时计算领域的领跑者。也从整体架构上给出了一个实时计算可以践行的基础架构和实时业务处理方法。学习目标通过本套课程的学习，能让学习者迅速的了解实时计算以及周边框架的使用方式并能将实时计算

2014-11-07 13:12:57 1018

原创 CentOS6.5下spark分布式集群的搭建

Spark是一个快速、通用的计算集群框架，它的内核使用Scala语言编写，它提供了Scala、Java和Python编程语言high-level API，使用这些API能够非常容易地开发并行处理的应用程序。下面，我们通过搭建Spark集群计算环境，并进行简单地验证，来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序（用Scala，Spark默认提供的Shell环境可以直接

2014-11-05 17:04:27 1950

转载 flume-ng+Kafka+Storm+HDFS+jdbc 实时系统搭建的完美整合

一直以来都想接触Storm实时计算这块的东西，最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档，自己也跟着整了一遍，之前罗宝的文章中有一些要注意点没提到的，以后一些写错的点，在这边我会做修正；内容应该说绝大部分引用罗宝的文章的，这里要谢谢罗宝兄弟，还有写这篇文章@晨色星空J2EE也给了我很大帮助，这里也谢谢@晨色星空J2EE 之前在弄这个的时候，

2014-11-04 14:37:34 1558

转载 ubuntu12.04+storm0.9.2 分布式集群的搭建

目录：　　一、什么是STORM?　　二、STORM的官方网站在哪里？　　三、在哪里下载？需要哪些组件的支持？　　四、如何安装？　　五、FAQ　　一、什么是STORM?　　在上一篇文章《mac10.9下eclipse的storm开发环境搭建》中，已经有详细的介绍。　　二、STORM的官方网站在哪里？　　http://storm.incubato

2014-11-04 14:15:05 1299

转载 kafka2.9.2的分布式集群安装和demo(java api)测试

目录：　　一、什么是kafka?　　二、kafka的官方网站在哪里？　　三、在哪里下载？需要哪些组件的支持？　　四、如何安装？　　五、FAQ　　六、扩展阅读　　一、什么是kafka?　　kafka是LinkedIn开发并开源的一个分布式MQ系统，现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式（能将消息分散到不同的节点上）MQ

2014-11-04 13:56:18 1807

转载 Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例

目录：　　一、什么是Flume?　　　　1)flume的特点　　　　2)flume的可靠性　　　　3)flume的可恢复性　　　　4)flume 的一些核心概念　　二、flume的官方网站在哪里？　　三、在哪里下载？　　四、如何安装？　　五、flume的案例　　　　1)案例1：Avro　　　　2)案例2：Spool　　　　3)案例3：Exec　

2014-11-04 11:23:05 1242

风流小子的专栏