
hadoop
文章平均质量分 56
weixir123
这个作者很懒,什么都没留下…
展开
-
hadoop 添加删除datanode及tasktracker
hadoop 添加删除datanode及tasktracker 首先: 建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode 修改namenode上的hdfs-site.xml Java代码 <prope...原创 2013-11-23 22:33:20 · 94 阅读 · 0 评论 -
error: java.io.IOException: File /opt/data/hadoop/mapred/mrsystem/jobtracker.inf
hadoop开启以root用户出错: error: java.io.IOException: File /opt/data/hadoop/mapred/mrsystem/jobtracker.info could only be replicated to 0 nodes, instead of 1 解决方案:原创 2013-10-17 09:28:46 · 133 阅读 · 0 评论 -
hadoop1.2.1+zookeeper-3.4.5+hbase-0.94.1集群安装
一,环境: 1,主机规划: 集群中包括3个节点:hadoop01为Master,其余为Salve,节点之间局域网连接,可以相互ping通。 机器名称 IP地址 hadoop01 192.168.1.31 hadoop02 192.168.1.32 hadoop03 192.168.1.33 ...原创 2014-03-22 16:43:27 · 211 阅读 · 0 评论 -
HDFS的基本概念
1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 2、元数据节点(Namenode)和数据节点(datanode) nam...原创 2014-03-20 14:59:40 · 96 阅读 · 0 评论 -
使用Ganglia监控Hadoop集群
0 环境 操作系统:CentOS 6.2 hadoop版本:hadoop-1.0.1 集群中三台机器: 192.168.137.101 namenode 192.168.137.103 datanode1 192.168.137.104 datanode2 1 安装Ganglia 1.1 添加EPEL软件仓库 CentOS官方软件...原创 2014-03-18 22:01:55 · 172 阅读 · 0 评论 -
zookeeper技术浅析
Zookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper,本文不谈如何使用zookeeper,而是zookeeper到底有哪些实际的运用,哪些类型的应用能发挥zookeeper的优势,最后谈谈zookeeper对分布式网站架构能产生怎样的作用。 Zookeeper是针对...原创 2014-03-18 10:17:32 · 82 阅读 · 0 评论 -
编译 hadoop 2.2.0
Hadoop 2.2 是 Hadoop 2 即yarn的第一个稳定版。并且解决单点问题。 maven安装 [andy@s41 ~]$ wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.tar.gz 解压后放到/usr/local目录下。 增加国内ma...原创 2014-03-15 14:35:59 · 77 阅读 · 0 评论 -
hive 三种启动方式及用途,关注通过jdbc连接的启动
1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive --service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 2, hive web界面的启动方式,hive --service hwi 用于通过浏览器来访问hive,感觉没多大用途 3, hive 远程服务 (端口号1...原创 2013-09-27 21:34:28 · 561 阅读 · 0 评论 -
hive 语法
hive访问已经存在的hbase CREATE EXTERNAL TABLE hbase_hive_names(hbid INT, id INT, fn STRING, ln STRING, age INT) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.c...原创 2013-09-25 22:48:53 · 85 阅读 · 0 评论 -
hive初始化访问mysql权限问题
hive 执行 show tables; 问题 写道 FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user 'hive'@'localhost' (using password: YES)NestedThrowables:java.sql.SQLException: A...原创 2013-09-25 22:32:43 · 413 阅读 · 0 评论 -
用Sqoop把数据从HDFS导入到MYSQL
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java 程序来实现sqoop把数据从HDFS写入到MYSQL。在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想:1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。3、从...原创 2014-03-14 09:52:01 · 738 阅读 · 0 评论 -
MapReduce列子WordCount
写程序MyWordCount.java package org.myorg; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; i...原创 2014-02-12 09:55:35 · 88 阅读 · 0 评论 -
hadoop 节点时间同步
时间同步:在每台服务器的 /etc/crontab 中加入一行:0 5 * * * root ntpdate ntp.ubuntu.com && hwclock -w原创 2014-05-28 14:17:59 · 179 阅读 · 0 评论 -
hadoop 常见错误
ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException待解决。。。。原创 2013-08-11 18:03:19 · 120 阅读 · 0 评论 -
修改Hadoop集群的备份数
之前dfs.replication值为3,运行一段时间之后我使用完了磁盘空间, 所以呢,现在我想通过降低备份的个数来释放空间。 那么对于之前存储的文件会自动把备份数改为1吗? 还是需要手动执行命令来执行呢? dfs.replication这个参数其实只在文件被写入dfs时起作用,虽然更改了配置文件,但是不会改变之前写入的文件的备份数。 但是可以通过如下命令更改备份数: bin/ha...原创 2013-11-24 22:27:59 · 376 阅读 · 0 评论 -
mapreudce 通过读取hbase表删除hbase 数据
package foo.bar.MR; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfigurat...原创 2013-11-24 22:01:04 · 148 阅读 · 0 评论 -
hadoop作业reduce过程调优使用到的参数笔记
reduce的运行是分成三个阶段的。分别为copy->sort->reduce。 由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition, 所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。 所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后, 所有的reduce就开始尝...原创 2013-11-23 22:53:28 · 86 阅读 · 0 评论 -
Hadoop命令大全
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节。4、关于作业的更多细节,比...原创 2013-11-23 22:37:01 · 74 阅读 · 0 评论 -
使用hive读取hbase数据
转载 http://blog.csdn.net/jiedushi/article/details/7325292 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce...原创 2013-10-21 22:00:51 · 81 阅读 · 0 评论