- 博客(14)
- 资源 (9)
- 收藏
- 关注
原创 HDP开发常用资源地址及源码编译方法
hdp为hortonworks公司整合apache 开源大数据项目开发的一款产品。包括常用大数据开源项目:spark,hadoop,hbase,hive,oozie,zookeeper等。本文主要介绍hdp版本的源码如何下载和编译。HDP源码地址:https://github.com/search?utf8=%E2%9C%93&q=hortonworks&type= 进入上诉网站后,在检索栏输入要
2017-11-02 14:53:08
5394
5
原创 flume:java.lang.AbstractMethodError:getMaxBackOffSleepInterval()J
从网上下载开源工具 flume-ng-sql-source-1.3.7.jar,实现flume抓取大量的mysql数据时出错 flume:java.lang.AbstractMethodError:getMaxBackOffSleepInterval()J 主要是因为该开源工具编译时用的flume-ng-core版本和flume环境中flume-ng-core版本不一致。 解决方案有两种:
2017-09-29 14:33:15
877
原创 SparkStreaming数据零丢失方案
场景分析Sparkstream读取kafka消息队列数据时,如果Sparkstream突然由于一些非代码原因挂掉,重启Spark集群如何能确保Sparkstream能不丢失kafka队列内的数据。主要利用了kafka集群的offset值。offset记录了kafka每个分区数据读取到了哪里,类似于游标。有三种解决方案操作offset:1.Checkpoints详情参考http://spark.apa
2017-09-27 14:01:46
2321
翻译 Spark Checkpointing 错误恢复
Checkpointing(检查点)A streaming application must operate 24/7 and hence must be resilient to failures unrelated to the application logic (e.g., system failures, JVM crashes, etc.). For this to be possibl
2017-09-26 16:11:18
1005
原创 flume抽取mysql数据至hdfs
场景分析:一般情况下关系型数据库(mysql、oracle、sqlserver)数据抽取至hdfs、hive、hbase使用sqoop工具。 但sqoop抽取底层依靠mapreduce处理的实时性得不到保证。如果能将数据抽取和SparkStreaming+sparkSql结合将大大提高了处理效率。因而想到了flume抽取关系型数据库数据至kafka中,有SparkStreaming读取。本文介绍如
2017-09-25 21:46:46
1967
转载 Kafka分区机制介绍与示例
Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)和索引文件(.index),这使得Kafka的吞吐率可以水平扩展。生产者在生产数据的时候,可以为每条消息指定Key,这样消息被发送到broker时,会根据分区规则选择被存储到哪
2017-09-22 20:48:44
543
原创 AMBARI HDP 官方安装文档
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.2/index.html这里写链接内容
2017-09-20 20:52:35
2456
转载 Phoenix 散裂表(Salted Tables)
HBase sequential write may suffer from region server hotspotting if your row key is monotonically increasing. Salting the row key provides a way to mitigate the problem. Details of the method would be
2017-09-18 13:56:02
735
原创 VNC 黑屏
windows 使用 VNCVIEW 连接远程LINUX时,有时会产生黑屏的情况。主要的原因是LINUX(本人的系统为CENTOS6.5)系统进入待机模式。 配置方法: Preferences-》PowerManagement
2017-09-18 13:48:36
1278
转载 win7 远程桌面连接centos 6.5
首先安装tigervnc-server:yum install tigervnc-server 安装好后,设置 vi /etc/sysconfig/vncservers[root@gateway-001 ~]# cat /etc/sysconfig/vncservers # The VNCSERVERS variable is a list of display:user pairs.##
2017-09-15 11:57:46
986
原创 SCALA HTTP get请求
import java.io._import org.apache.commons._import org.apache.http._import org.apache.http.client._import org.apache.http.impl.client.DefaultHttpClientimport java.util.ArrayListimport org.apache.ht
2017-09-15 11:44:53
4815
转载 JAVA MD5工具类
package com.common.tools;import java.security.MessageDigest;/** * MD5加密工具类 * <功能详细描述> * * @author chenlujun * @version [版本号, 2014年10月1日] * @see [相关类/方法] * @since [产品/模块版本] */public abstra
2017-09-15 11:40:10
391
原创 机器学习基础--概率论与数理统计 chapter1 section5 条件概率
1.条件概率 A发生的情况下B发生的概率:P(B|A)=P(AB)*P(A)2.全概率公式和贝叶斯公式 P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+......+P(A|Bn)P(Bn)3.贝叶斯公式,逆天的公式,久仰大名却又这么平民 P(Bi|A)=P(A|Bi)p(Bi)/【P(A|B1)P(B1)+P(A|B2)P(B2)+......+P(A
2016-09-21 22:16:34
295
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人