
Hadoop生态系统
文章平均质量分 79
哈维先生
这个作者很懒,什么都没留下…
展开
-
Hive数据仓库
简介Hive是建立在Hadoop基础上的数据仓库基础架构。Hive是为超大数据集设计的计算/扩展能力,支持SQL like的查询语言,具有统一的元数据管理系统。原创 2013-12-03 16:10:00 · 212 阅读 · 0 评论 -
用Hadoop构建电影推荐系统
用Hadoop构建电影推荐系统Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop,转载 2014-03-04 14:56:36 · 2214 阅读 · 1 评论 -
Hive中的join
join在使用join写查询的时候有一个原则:应该将条目少的表或者子查询放在join操作符的左边。原因是在join的操做的reduce阶段,位于join操作符左边的表的内容会被加载进入内存,将条目少的表放在左边,可以有效的减少发生OOM错误的几率。原创 2014-03-11 23:10:42 · 1149 阅读 · 0 评论 -
HBase的学习
hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加转载 2014-03-05 10:12:52 · 139 阅读 · 0 评论 -
python使用thrift访问hbase
thrift 是facebook开发并开源的一个二进制通讯中间件,通过thrift,我们可以充分利用各个语言的优势,编写高效的代码。原创 2014-03-05 15:42:02 · 239 阅读 · 0 评论 -
hive与数据库的区别
摘要:由于 Hive 采用了 SQL 的查询语言 HQL,因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。查询语言HQL转载 2014-01-14 10:41:41 · 1130 阅读 · 0 评论 -
MapReduce原理
mapreduce原创 2014-02-27 13:36:16 · 128 阅读 · 0 评论 -
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。本文作者张震的博文《Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解》从内部机理详细的分析了HDFS、MapReduce、Hbase、Hive的运行机制,从底层到数据管理详细的将转载 2014-02-21 08:35:20 · 823 阅读 · 0 评论 -
Hive中的扩展功能(Transform和UDF)
Transform例子1:FROM ( FROM pv_users MAP pv_users.userid, pv_users.date USING 'map_script' AS dt, uid CLUSTER BY dt) map_outputINSERT OVERWRITE TABLE pv_users_reduced REDUCE map_output.d原创 2014-01-14 08:34:54 · 347 阅读 · 0 评论 -
Hive函数
条件函数返回类型函数说明Tif(boolean testCondition, T valueTrue, T valueFalseorNull)判断是否满足条件,满足返回第一个值,否则返回另外一个值Tcoalesce(T v1, T v2, ...)返回一组数据中,第一个不为null的值,如果都为null,则返回null原创 2014-08-01 11:47:36 · 1014 阅读 · 0 评论