- 博客(15)
- 资源 (4)
- 收藏
- 关注

原创 基于Scala构建分布式调度ETL系统Akkaflow
akkaflow演示系统: 点击这里 用户/密码:admin/admin 项目地址:点击这里 简介akkaflow是一个基于akka架构上构建的分布式高可用ETL调度工具,可以把一个job中子任务按照拓扑关系在集群中不同的节点上并行执行,高效利用集群资源;提供多个工具节点,可监控文件数据情况,对数据及任务进行监控告警,异常处理等。其中工作流定义相对简洁轻量级,可作为构建数据仓库、...
2017-04-02 23:37:45
5155
1
原创 基于phoenix的用户清单查询
在没有分布式Nosql数据库之前,移动、电信用户扣费清单查询、通话清单查询,是一件很头疼的事情。而hbase提供了海量数据的毫秒级查询。可见,hbase是个非常好的实时查询框架,缺点就是查询功能非常薄弱,仅限于通过行键查询,而phoenix是构建于hbase之上的,提供了HBase的sql访问功能,可以使用标准的JDBC API操作去创建表、插入记录、查询数据。因此容易让开发人员上手、简化开发流程。
2016-04-19 16:52:25
1806
1
原创 tomcat配置https单向认证笔记
tomcat使用https是为了保证隐私数据能够加密传输,不被别人截取破解传输信息。https认证过程涉及到对称加密与非对称加密,多次握手,相对于http协议是比较费时的。
2016-01-20 11:28:23
7959
原创 Hive 分析函数lead、lag实例应用
Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。
2015-12-31 15:34:21
68119
6
翻译 Hive UDTF开发指南
在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列
2015-12-07 00:21:40
11289
1
翻译 Hive UDAF开发详解
说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。udfa是hive中用户自定义的聚集函数,hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用
2015-11-30 11:36:29
24254
2
原创 ftp提取文件到hdfs
实际场景中,我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心,经过实践,有以下的三种方法,分别列出其优缺点及适用场景。
2015-11-09 17:05:29
5487
原创 hive权限管理之实践
一、实践心得领导说公司集群的hive要进行权限管理,然后身为底层码农的我就开始找资料进行配置实践,关于这方面的资料也不少,主要参考这个连接,里面说得也挺详细的。http://www.aboutyun.com/thread-12549-1-1.html总结如下:1、若赋予用户某个表的权限,查用户在该表所属数据库的权限,是查询不出来的,要指定到那张表2、若要赋予用户db1数据库
2015-10-30 16:33:24
8115
原创 自定义MapReduce的InputFormat,提取指定开始与结束限定符间的内容
在编写MapReduce程序时,常用的TextInputFormat是以换行符作为Record分隔符的,即该行的内容作为MapReduce中map方法中的value,而该行头在文件中的偏移值作为key。但是在实际应用中,我们在提取日志内容时,有可能遇到一条Record包含多行的情况,并且要提取字段开始限定符到结束限定符的情况
2015-10-27 09:25:27
2344
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人