
hadoop
samwalt
这个作者很懒,什么都没留下…
展开
-
运行hadoop的WordCount程序
源代码[code="java"]import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.StringTokenizer;import org.apache.hadoop.conf.Confi...原创 2011-05-02 11:46:41 · 99 阅读 · 0 评论 -
hadoop性能调优
1 选择Mapper的数量 Hadoop处理大量小文件的性能比较逊色,主要由于生成的每个分片都是一整个文件,Map操作时只会处理很少的输入数据,但是会产生很多Map任务,每个Map任务的运行都包括产生、调度和结束时间,大量的Map任务会造成一定的性能损失。可以通过Java虚拟机(JVM)重用来解决这个问题。hadoop默认每个JVM只运行一个任务。使用JVM重用后,一个JVM可...原创 2011-08-16 17:28:32 · 112 阅读 · 0 评论 -
hadoop参数设置
[code="java"]hadoop.tmp.dir[/code]指定的目录是本地目录,存储namenode的metadata,hdfs的块数据,还有临时数据,默认值/tmp/hadoop-${user.name}[code="java"]fs.default.name[/code]设置hadoop默认文件系统,URI的形式,需要指定namenode的主机名和端口[code="j...原创 2011-08-29 18:22:08 · 188 阅读 · 0 评论 -
hadoop常见错误及处理方法
1、hadoop-root-datanode-master.log 中有如下错误:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in导致datanode启动不了。原因:每次namenode format会重新创建一个namen...原创 2011-06-21 10:44:00 · 381 阅读 · 0 评论 -
Linux集群上安装hadoop
两台机器组成一个小实验集群,一台master,一台slave1。OS: Red Hat Enterprise Linux 5Java: jdk1.6hadoop: 0.20.2master机器的配置情况:编辑[color=blue]/etc/hosts[/color]文件,加上master和slave1的ip地址编辑[color=blue]hadoop-0.20.2...原创 2011-02-28 17:19:00 · 88 阅读 · 0 评论 -
hadoop使用lzo压缩
1、安装lzo开发包[code="shell"]sudo apt-get install liblzo2-dev[/code] 2、安装lzop[code="shell"]sudo apt-get install lzop[/code]3、编译hadoop-lzo.jar用git在此页面下载源码[code="html"]https://github.com/kevinwei...原创 2012-04-23 21:38:16 · 194 阅读 · 0 评论 -
hadoop命令
fsck命令检查hdfs文件系统数据的一致性[code="java"]hadoop fsck / -files -blocks[/code]从本地文件系统复制文件到hdfs[code="java"]hadoop fs -copyFromLocal local_dir hdfs_dir[/code]或者[code="java"]hadoop fs -put local_fil...原创 2011-12-05 21:55:55 · 112 阅读 · 0 评论 -
hive配置
hive本身的配置还是很简单的,关键在于需要一些前提条件。1)hadoop必须配置成伪分布模式或者集群模式2)必须启动hadoophive的数据仓库路径不是本机文件系统路径,而是hdfs的路径[code="xml"] hive.metastore.warehouse.dir /home/hadoop/hive/warehouse location of...原创 2013-06-18 11:56:59 · 124 阅读 · 0 评论