- 博客(63)
- 收藏
- 关注
原创 hadoop源码编译,导入idea中
我的笔记本是deepin15.8系统,其实就是一个ubunt1.首先安装软件sudo apt-get install maven libssl-dev build-essential pkgconf cmake2.安装protobuf下载protbuf 2.5.0https://github.com/protocolbuffers/protobuf/releases?after=...
2019-01-09 15:32:50
3559
1
原创 sqoop 报错之java.lang.InternalError
java.lang.InternalError at sun.security.ec.SunEC.initialize(Native Method) at sun.security.ec.SunEC.access$000(SunEC.java:49) at sun.security.ec.SunEC$1.run(SunEC.java
2017-12-25 15:14:15
1408
原创 spark rdd转dataframe的两种方式
方式1:使用隐式转换 case class Dika(skuId: Int,skudesc:String, listId: Int, listDesc:String) import hiveContext.implicits._ val p = sc.parallelize(Seq(new Dika(1,"miao",1,"shu"))).toDF()
2017-11-01 11:50:49
1141
原创 yarn日常维护之nm健康状态为false
最近发现yarn集群的ui上显示的nodes个数为2个,正常情况下是2个,然后就很无语了,因为以前一直都没有问题然后差问题呗,从ui上显示丢失了206机器的nm,重新启动206上的nm 然后我查看206机器nm的日志和207上的rm的日志 从日志上来看 没有任何问题,nm显示注册到了207机器,207机器显示收到了206机器的注册,这就无语了,我累个法克然后磨叽了好几个小时,在查看20
2017-10-30 11:31:58
850
原创 hbase 开启缓冲和不开启缓冲 比较
hbase 中的put 一个put相当于是一个rpc,如果循环的次数过多 则绝大部分时间都消耗在rpc的网路传输过程中 而不是用于传输数据的时间占比高如果开启个缓冲 一次性提交批量数据 则会提高效率得了 话就说那么多,直接上代码package com.hit.test;import org.apache.hadoop.conf.Configuration;import org
2017-10-25 16:37:22
554
原创 面试杂谈
最近面试了几家公司第一家:可能是嫌我java功底不太厚第二家:三面挂了 原因是 基础不够扎实 数据结构 以及jdk源码功力不是特别深厚第三家:直接告诉我和公司业务不符合第四家:嫌弃我没有实时流式的工作经验总结:面试造飞机,工作补轮胎(程序员已经是红海了)
2017-10-19 09:49:55
267
原创 sqoop使用hcatlog生成对应的orc格式的表
最近去面试,面试官提了一句,可以使用hcatlog来实现直接生成对应的parquet格式的表,不过我没有生成成功parquet表 但是生成成功了orc表 具体的原因还未知不过终于可以直接生成orc格式的表了 orc基本上也够用了sqoop import --connect $URL --username $USERNAME --password $PASSWORD --table erp_
2017-10-14 09:25:10
3679
原创 SortShuffleManager方法头注释
/** * In sort-based shuffle, incoming records are sorted according to their target partition ids, then * written to a single map output file. Reducers fetch contiguous regions of this file in order
2017-10-12 16:16:50
284
原创 RDD五大特性
* - A list of partitions rdd是分片的* - A function for computing each split 每个function是作用在每个split* - A list of dependencies on other RDDs rdd是有互相依赖的* - Optionally, a Partitioner for key-value RDDs
2017-10-12 16:15:44
397
原创 copyonwritelist源码理解
ArrayList 的一个线程安全的变体,其中所有可变操作(add、set 等等)都是通过对底层数组进行一次新的复制来实现的。上面这句话是官方jdk里写的 其实就是copyonwritelist是一个安全类 每次都是通过复制来实现线程安全打开copyonwritelist的源码 /** The lock protecting all mutators */ final
2017-10-10 16:56:05
1908
原创 hdfs报错之 DisallowedDatanodeException
先看异常堆栈,以前一直没有去看namenode的日志 今天已查看 发现一个错误 看错误的信息应该是无法解析到207机器2017-10-10 09:45:45,124 WARN blockmanagement.DatanodeManager (DatanodeManager.java:registerDatanode(882)) - Unresolved datanode registrati
2017-10-10 09:57:24
1190
原创 hive日常报错之 serious problem serious problem,block 丢失
https://community.hortonworks.com/questions/71589/after-upgrading-to-hdp-253-using-beeline-with-a-si.html报错如下 参考链接如上 感觉是 orc的文件优化导致的这个错误 解决办法是set hive.exec.orc.split.strategy=BI;加上这么一个参数即可
2017-10-09 09:45:33
7697
原创 hadoop之二次排序
package com.hit.ee;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.
2017-09-30 08:51:38
265
原创 mapreduce编程模型之WritableComparator
WritableComparator是一个类 这个类是用于mapreduce编程模型中的比较 排序 mapreduce中有两次排序 一次是 在环形缓冲区域之中进行分区 排序还有一次是数据在reduce端获取文件之后进行分组现在我讲的是后面那个 //Define the comparator that controls which keys are grouped together
2017-09-29 12:02:31
1137
原创 mapreduce编程模型之partitioner
Partitioner是一个mapreduce的顶级抽象类 用于决定map输出的kv键值对 如何按照job.setnumberruce(n)中设置的n个数进行分区 每个kv落在哪个分区之中 以及如何保证相同的key落在同一个分区中 只有相同的key落在同一个分区中 才能保证 这个相同的key可以被同一个reducer处理上代码 public static class MyPartition
2017-09-29 11:53:29
341
原创 jvm参数的配置
1.首先获取活跃占用空间的老年代大小 和活跃占用空间的永久代大小.怎么获取呢?(1)首先不用设置参数 然后jvm经过几次jvm之后 通过jvisualVm中的visual GC插件就能看到 或者是通过 gc的日志也能看到活跃占用空间的老年代和永久代的大小2.然后就直接做设置java堆 -Xms和-Xmx3-4倍活跃老年代空间占用量永久代 -xx:permsize1.2~1
2017-09-19 10:47:37
370
原创 java如何定位锁
首先使用jconsole连接上应用点击死锁 然后会出现两个线程也就是这两个线程出现了死锁然后再使用jstack进行分析具体是哪一行代码出现死锁jstack -l 18404这个就写的比较明白了 线程1 卡在 DeadLock 43行代码 而 线程 2卡在DeadLock 56行代码最后附上我测试使用的jav
2017-09-19 10:41:50
471
转载 hotspot vm调优 资料
简书 中的垃圾回收器比较http://www.jianshu.com/p/50d5c88b272d oracle中关于参数的配置http://www.oracle.com/technetwork/articles/java/vmoptions-jsp-140102.html
2017-09-08 17:06:12
254
转载 kylin count distinct需要注意的东西
详情请看这个链接http://lxw1234.com/archives/2016/08/714.htm也可以看官网给的http://kylin.apache.org/blog/2016/08/01/count-distinct-in-kylin/
2017-08-22 14:44:39
911
翻译 kylin raw度量 需要注意的东西
大约就是 1.避免数据倾斜2.设置参数3.将大的segment变成小的segment进行操作4.raw度量 在cuboid的大小不能超过1M 不然就bufferoverflowexeption 说是说以后会进行优化,然并卵5.raw度量不支持where条件查询链接:http://kylin.apache.org/blog/2016/05/29/raw-measure
2017-08-22 14:43:13
2128
翻译 kylin官方给出的优化 以及各个步骤容易出现的问题
1.使用和hive相同的partition cloumn关闭自动合并设置 hive.merge.mapfiles false Disable Hive's auto merge2.重新分布中间表作用:防止不均匀默认是100W一个文件,你可以通过conf/kylin.propertieskylin.job.mapreduce.mapper.input.rows=500000这
2017-08-22 14:41:45
6904
原创 hadoop2.0如何控制map的个数
有些场景,需要我们对map的个数进行控制.比如说:我的集群中的节点多,而且计算复杂,这时候,我需要将整体的并发量提高上去,这时候就需要进行控制map的个数了.如何控制呢?我们先引入一个公式splitsize = Math.max(minSize, Math.min(maxSize, blockSize));这个里面的splitsize就是每个split的大小,我们只要控制这个大小即
2017-06-04 13:29:41
419
原创 hive 优化配置
set hive.cli.print.current.db=true;set hive.exec.mode.local.auto=ture;set hive.cli.print.header=true;set hive.map.aggr=true;set hive.groupby.skewindata=true;set hive.optimize.skewjoin=true;
2017-05-25 16:34:43
278
原创 spark core 数据倾斜时如何处理
数据倾斜原理:做join的时候 发现数据都跑到同一个节点上了,这个就是数据倾斜,通过spark的ui界面能发现有些任务shuffle的数据量特别大这时候就可以判定数据倾斜了 产生测数据package com.spark.data import java.io.{File, FileOutputStream, FileWriter}import java.ut
2017-05-04 11:03:49
365
原创 spark dagscheduler
/** * The high-level scheduling layer that implements stage-oriented scheduling. It computes a DAG of * stages for each job, keeps track of which RDDs and stage outputs are materialized, and finds
2017-03-20 14:14:05
329
原创 安装hue失败
安装hue的时候,会出现问题 gmp.h: No such file or directory缺失gmp包yum install gmp gmp-devel gmp-status
2016-10-11 17:33:58
441
原创 json循环依赖导致生成json失败
公司使用jackson进行json串的生成,现在碰上一个问题,hibernate查询出来的数据是有可能出现循环依赖的,使用jackson进行生成json str时候,报循环依赖错误.解决办法有两个1,使用jackson中的注解@JsonIgnore 解释一下 @JsonIgnore 这个的作用相当于解析器遇上这个注解的时候,会进行自动忽略这个属性,也就是中断了循环这样能解决问题,但是
2016-10-08 18:03:58
1559
转载 hbase 优化
HBase设计与开发性能优化(转)本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都
2016-09-09 14:50:09
242
转载 hbase 操作 干货 尤其是删除部分
欢迎转载,请注明来源:http://blog.csdn.net/u010967382/article/details/37878701概述对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。对于数据操作,HBase支持四类主要的数据操作,分别是:Put:增加一行,修改一行;
2016-09-09 14:49:07
12766
原创 storm安装
概述172.16.210.190 node1 ----> nimbus ui172.16.210.191 node2 ---->supervisor172.16.210.192 node3 ---->supervisor1.安装zookeeper2.检查依赖 需要java7 python2.6.63.修改storm.yaml和storm-env.sh4.按照一定顺序启动
2016-08-18 17:06:18
372
原创 初学spark streaming
本来想好好学学hbase的,但是被叫去弄spark streaming了,所以花了点时间学习了spark streaming,下面是笔记和代码spark streaming 是分一个时间段内处理一回,和storm不一样,storm是出现一条记录处理一回代码package com.hit.sparkimport org.apache.spark.SparkConfi
2016-08-17 16:09:11
355
原创 crunch学习一
最近在学习crunch先附上官网文档地址http://crunch.apache.org/user-guide.html首先是学习了一下getstart然后才是user-guide简述一下吧,作为一个笔记1.crunch几个重要的接口PCollection, PTable, and PGroupedTable.Pipeline
2016-08-16 16:22:20
864
原创 scala和java集合互相转换
import collection.JavaConverters._val table: HTable = new HTable(conf, tableName)val deleteList = for (row yield new Delete(Bytes.toBytes(row))table.delete(deleteList.toSeq.asJava)
2016-08-16 16:13:37
1447
原创 使用scala操作hbase api
最近在研究hbase 和scala,研究scala是为了spark,刚好hbase的api我也不熟,scala也不熟悉,所以就用来练手了代码是两个类ConfigUtil 是用来产生configuration的TestHbaeJavaApi是用来测试hbase api的jar包是用的cdh5.7.1的版本package com.hit.hrbimport org.
2016-08-16 16:11:26
10026
原创 maven 仓库地址 国内
开源中国的maven仓库不能用了,找到一个备用的 repo2 central Human Readable Name for this Mirror. http://repo2.maven.org/maven2/ 记录一下
2016-07-30 22:40:12
326
原创 linux 系统 eclipse提交job到hadoop集群上的一些坑
自从学习hadoop开始,一直就想找到一个办法,能提交一个job到hadoop集群上,而不是export jar包,然后在hadoop集群上执行命令 hadoop jar今天算是被我找到了,顺带还发现一个local模式先上hadoop的经典的wordcount代码,这个代码是从官网上摘来的package com.hit.hadoop;import java.io.IOExcepti
2016-07-27 15:31:59
1271
原创 win7开发hadoop的一些问题
windows下开发mr程序,经常会出现一些乱七八糟的问题1.身份问题,UserGroupInformation中会处理身份问题.而且取的是系统当前登录用户,也就是你win7的用户,以这个身份进入hadoop集群.会导致hadoop拒绝执行任务解决办法:(1).在win7的环境变量中添加HADOOP_USER_NAME=hadoop HADOOP_PROXY_USER=hadoop
2016-06-22 11:27:20
310
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人