dch215810-CSDN博客

原创 nifi 1.7.1 安全集群设置+用户创建（Kerberos 配置）

系统环境及软件版本 CentOS7 JDK1.8.0_91 Nifi-1.7.1 Kerberos5 zookeeper3.4.5 nifi-toolkit-1.7.1 集群信息：host_name IP service server 192.0.0.230 Kerberos5 Server, Nifi ...

2018-09-04 21:11:06 1792 1

转载 Hadoop 之上的数据建模 - Data Vault 2.0

对比传统的基于 RDBMS 之上的数据仓库和商业智能项目，尝试着说说，Hadoop 之上的数据仓库，从ETL, 数据存储，到分析展现。重点围绕数据建模方面做分析，因为这是本文的重点，介绍一份新的数据建模方式 Data Vault 2.0.ETL 最基本的构建来自于转换和工作流。工作流，作用是规划一条完整的数据转换流。转换，是 ETL 最中心的组件。可以用 MapReduce 来完成，...

2018-10-08 17:27:54 1180

原创 Linux下用rm删除的文件的恢复方法

对于rm,很多人都有惨痛的教训。我也遇到一次，一下午写的程序就被rm掉了，幸好只是一个文件，第二天很快又重新写了一遍。但是很多人可能就不像我这么幸运了。本文收集了一些在Linux下恢复rm删除的文件的方法，给大家作为参考。　　首先，最好的方法是避免这个问题，以下是几点建议:　　1、rm -rf误操作的后果是可怕的，rm -f也要三思而行，不能轻易使用。　　2、做好数据备份。　　3、...

2018-09-05 17:05:53 111110 2

原创 Oracle 分析，分组函数 group by 高级用法 grouping sets，rollup和cube区别

Oracle的GROUP BY语句除了最基本的语法外，还支持ROLLUP和CUBE语句。如果是ROLLUP(A, B, C)的话，首先会对(A、B、C)进行GROUP BY，然后对(A、B)进行GROUP BY，然后是(A)进行GROUP BY，最后对全表进行GROUP BY操作。如果是GROUP BY CUBE(A, B, C)，则首先会对(A、B、C)进行GROUP BY，然后依次是(A、B)...

2018-09-05 17:01:39 1746

原创 Teradata 日期类型转换（特殊方式）

Teradata 日期类型转换（特殊方式）

2015-07-30 09:56:45 16131

kafka+flume 实时采集oracle数据到hive中.docx

讲述如何采用最简单的kafka+flume的方式，实时的去读取oracle中的重做日志+归档日志的信息，从而达到日志文件数据实时写入到hdfs中，然后将hdfs中的数据结构化到hive中。

2020-08-11

apache-airflow-1.10.3-bin.tar.gz

Airflow是一个可编程，调度和监控的工作流平台，基于有向无环图(DAG)，airflow可以定义一组有依赖的任务，按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控，而其web管理界面同样也可以方便的管控调度任务，并且对任务运行状态进行实时监控，方便了系统的运维和管理。

2019-08-06

nifi-1.9.2-source-release.zip

Apache NiFI 1.9.2版本资源库 nifi-1.9.2-source-release.zip

2019-08-06

nifi-toolkit-1.9.2-bin.tar.gz

nifi-toolkit-1.9.2-bin.tar.gz Apache NiFI 授权配置工具包

2019-08-06

apache-tez-0.8.3-src.tar.gz

Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。总结起来，Tez有以下特点：（1）Apache二级开源项目（源代码今天发布的）（2）运行在YARN之上（3）适用于DAG（有向图）应用（同Impala、Dremel和Drill一样，可用于替换Hive/Pig等

2019-08-06