
hadoop
文章平均质量分 85
stevie
坚持自己的梦想。。。
展开
-
Hive 入门详解
转自:http://www.zypx.cn/technology/20100606132430320046.htmlHive 是什么在接触一个新的事物首先要回到的问题是:这是什么?这里引用 Hive wiki 上的介绍:Hive is a data warehouse infrastructure built on top of Hadoop. It provide转载 2013-04-11 15:58:49 · 2776 阅读 · 0 评论 -
hive数据类型
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上翻译 2013-07-09 11:02:18 · 2328 阅读 · 0 评论 -
hadoop+hive+hbase的整合开发(配置加测试)
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.原创 2013-07-08 15:05:33 · 2588 阅读 · 0 评论 -
hadoop 1.03 安装配置
环境:操作系统Centos 5.5 64-bit三台节点,计划部署分配如下: ip 主机名 用途172.16.48.201 sg201 namenode 172.16.48.202 sg202 datanode172.16.48.203 sg203 datanode转载 2013-07-10 14:35:28 · 851 阅读 · 0 评论 -
文本数据导入HBASE
在将有定界符文本文件导入HBASE库中,需要将后面的定界符去掉,否则将导入失败。如下所示:[hadoop@hadoop1 bin]$ cat /tmp/emp.txt1,A,201304,2,B,201305,3,C,201306,4,D,201307,这个文件后面多了一个逗号。[hadoop@hadoop1 bin]$ hadoop fs -p转载 2013-07-10 14:39:42 · 4413 阅读 · 0 评论 -
hive中的静态分区与动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition原创 2013-07-13 22:49:40 · 1006 阅读 · 0 评论 -
Hbase使用经验
有待修正一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(Bytes.toBytes(“66”));p.add(Bytes.原创 2013-07-02 09:16:36 · 2348 阅读 · 0 评论 -
hive中UDF、UDAF和UDTF使用
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St原创 2013-04-12 10:10:43 · 4353 阅读 · 0 评论 -
Hive Partition简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节翻译 2014-03-26 09:46:04 · 675 阅读 · 0 评论 -
hbase 介绍
一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008翻译 2014-03-26 09:49:25 · 694 阅读 · 1 评论 -
hbase MapReduce程序样例入门
1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.class);Sc翻译 2014-03-26 09:49:54 · 763 阅读 · 0 评论 -
Hive metastore三种存储方式
测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需要在转载 2014-03-26 09:50:11 · 821 阅读 · 0 评论 -
Hive metastore三种存储方式
测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore 。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需转载 2014-03-26 09:53:33 · 1067 阅读 · 0 评论 -
hadoop笔记:一些问题和解决方法
一些问题和解决方法从网上找到的答案,顺手做的笔记,没记下出处。Q:执行hadoop -put 时报错:Name node is in safe mode.A:hadoop dfsadmin -safemode leaveQ:reduce执行到16%或17%时停住不动,查看hadoop-{user}-jobtracker-{host}.log中有这样一条错误提示:Failed fet原创 2013-05-13 15:02:10 · 1638 阅读 · 1 评论 -
hadoop,用户制定类
mapreduce是一个很精巧的构思和设计,对于很多计算问题,程序员通常可以使用默认设置取处理诸多底层的细节,但是,这并不意味着在解决复杂问题时,程序员就可以完全使用这二个函数就可以搞定一切,它还需要更加复杂和灵活的处理机制以及高级的编程技术和方法。本节介绍hadoop中mapreduce比较高级的方法---用户制定类。为什么要用户自定义类,一种直观的猜测就是基本的mapreduce处理不了或者处转载 2013-05-03 09:08:36 · 834 阅读 · 0 评论 -
安装chukwa时启动collector端失败的解决方法
安装chukwa时,启动collector端失败,查看日志发现报错:2012-03-21 11:28:20,448 INFO main SeqFileWriter - filesystem type from core-default.xml is org.apache.hadoop.hdfs.DistributedFileSystem2012-03-21 11:28:20,664 ERR原创 2013-04-12 10:12:04 · 1260 阅读 · 0 评论 -
oozie安装问题
在cdh3u3版本上安装后,按照官方文档的配置方法,轻松搞定。 http://incubator.apache.org/oozie/QuickStart.html 其中,要注意以下几点: 1,运行命令: bin/oozie-setup.sh -hadoop 0.20.2 ${HADOOP_HOME} -extjs /tmp/ext-2.2.zip时,首先 版本号用的是0.2转载 2013-04-12 16:47:08 · 2010 阅读 · 1 评论 -
hive的3种数据存储格式
hive有textFile,SequenceFile,RCFile三种文件格式。其中textfile为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到SequenceFile,R原创 2013-04-12 17:51:48 · 5395 阅读 · 0 评论 -
mahout learning 代码示例
一, Introductionpackage mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache.mahout.cf.taste.impl.neighborhood.*;转载 2013-04-12 19:25:39 · 1661 阅读 · 1 评论 -
Hadoop Oozie 自定义安装和启动
cloudera里面有基于Oozie的安装,但是通过sudo apt-get install oozie的方式.其中你要将cloudera hadoop的source放入sources.list.由于我升级了最新的Ubuntu.但对应的cloudera hadoop还没有相应的版本.所以添加sources.list无法成功.网上也没什么手动安装的资料,于是我就写点吧.参考来源:http://i原创 2013-04-12 16:46:13 · 3333 阅读 · 0 评论 -
HIVE文件存储格式的测试比较
根据自身涉及到的数据分布和使用需求,对HIVE上的三类文件格式做了如下测试,指导HIVE的文件格式选型。测试存在环境、数据分布、测试偏重点的不同,本测试只供参考,不作为大家选型决策的绝对指导。HIVE的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把转载 2013-04-12 18:07:32 · 1157 阅读 · 0 评论 -
hadoop排序
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个14转载 2013-04-21 16:51:57 · 941 阅读 · 0 评论 -
Partitioning
In the Issue #1 of this series, we set up the “learning playground” (based on the Cloudera Virtual Machine) in order to enjoy hands-on learning experiences around Hadoop. In this issue, we’ll us转载 2013-04-21 17:07:48 · 1029 阅读 · 0 评论 -
hadoop的二次排序
MapReduce框架在把记录到达reducers之前会将记录按照键排序。对于任意一个特殊的键,然而,值是不排序的。甚至是,值在两次执行中的顺序是不一样的,原因是它们是从不同的map中来的,这些不同的map可能在不同的执行过程中结束的先后顺序不确定。通常情况下,大多数的MapReduce程序的reduce函数不会依赖于值的顺序。然而,我们也可通过以一种特殊的方式排序和分组键,来指定值的顺序。转载 2013-04-22 20:23:43 · 876 阅读 · 0 评论 -
hive优化
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >l转载 2013-04-14 15:59:38 · 1808 阅读 · 0 评论 -
MapReduce实例分析
0.MaxValue:要求输出cite75_99.txt中最大的CITED值:要点: 1.Mapper只输出它所处理的数据中的最大值。(重写cleanup()函数) 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1,同时也只输出所处理的最大值。(重写cleanup()函数) 3.cleanup()函数:在任务结束时执行一次。详见A转载 2013-04-17 09:09:13 · 1334 阅读 · 0 评论 -
Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行merge,原创 2013-04-19 16:30:17 · 781 阅读 · 0 评论 -
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空转载 2014-03-27 10:28:12 · 1371 阅读 · 0 评论