卡列宁的微笑66-CSDN博客

原创 Flink求TopN

一、数据字段如下：字段名数据类型说明 userId Long 加密后的用户ID itemId Long 加密后的商品ID categoryId Int ...

2019-11-08 20:49:04 2052

原创 Spark Streaming 读取Kafka数据

1.引入Maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</vers...

2019-10-11 17:02:24 290 1

由于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现，Spark 可以通过Hadoop输入格式访问 HBase。这个输入格式会返回键值对数据，其中键的类型为org. apache.hadoop.hbase.io.ImmutableBytesWritable，而值的类型为org.apache.hadoop.hbase.client....

2019-10-08 20:41:28 230

原创 Spark从 Mysql 数据库读写文件

1.引入maven依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> &...

2019-10-08 18:40:23 212

原创 Shell中单引号和双引号区别

1、创建一个脚本[hadoop@hadoop104 fczheng]$ vim test.sh在文件中添加如下内容：#!/bin/bashdo_time=$1echo '$do_time'echo "$do_time"echo "'$do_time'"echo '"$do_time"'echo `date`2、执行结果[hadoop@hadoop104 fc...

2019-08-29 15:25:59 115

原创 Kafka启动后进程过一段时间自己消失，问题解决

我的Kafka有三个节点，启动kafka后进程过一段时间后会自己消失。解决问题思路如下：由于kafka依赖于zookeeper，启动后要去zookeeper中注册，启动kafka时：先启动zookeeper，保证zookeeper服务正常后，后再启动Kafka。关闭Kafka时：先关闭kafka，再关闭zookeeper。保证启动和停止无误后，如果kafka启动后，kafka进程...

2019-08-28 13:00:37 8887 3

原创 DataX3.0入门简介

一篇不错的介绍DataX的文章，转载自：https://blog.csdn.net/u014646662/article/details/82792725 ，感谢原作者。一. DataX3.0概览二、DataX3.0框架设计三. DataX3.0插件体系四、DataX3.0核心架构五、DataX 3.0六大核心优势对人工智能感兴趣的同学，可以点击以下链接：现在人工智能非...

2019-08-23 21:15:53 302

原创 Hadoop集群安全模式

基本语法：集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。功能描述：查看安全模式状态hdfs dfsadmin -safemode get功能描述：进入安全模式状态hdfs dfsadmin -safemode enter功能描述：离开安全模式状态hdfs dfsadmin -safemode leave功能描述：等...

2019-08-23 20:34:34 473

原创使用MapReduce将HBASE表中的数据导入到HDFS

目标：将HBase中student表中的数据，通过MR迁移到HDFS的hdfs://hadoop112:9000/user/hadoop/out1路径下。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId...

2019-08-16 21:32:06 1047

原创使用MapReduce把HBase表中的数据迁移到另一张HBase表中

目标：将HBase中student表中的数据，通过MR迁入student_mr表中。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>h...

2019-08-16 20:03:13 621

原创 Hbase Region下线故障修复

当发现HBASE的某张表无法正常访问，或scan时：发现故障后，检查hbase（以student表为例）：[hadoop@hadoop112 ~]$ hbase hbck -details student结果重要部分如下：Summary:Table student is okay. Number of regions: 0 Deployed on: Tabl...

2019-08-16 12:36:56 1988 1

原创 Arrays.copyOf()与System.arraycopy()的区别

如果我们想拷贝一个数组，我们可能会使用Arrays.copyof()或者System.arraycopy()两种方式。在这里，我们将使用一个比较简单的示例来阐述两者之间的区别。一、首先System.arraycopy()首先观察先System.arraycopy(Object src, int srcPos, Object dest, int destPos, int length)的声明...

2019-08-15 11:16:33 548

原创 HBase架构简介

一、HBase架构HBase架构图如下：从图中可以看出 Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成，下面来介绍一下几个组件的相关功能：1 ）ClientClient 包含了访问 Hbase 的接口，另外 Client 还维护了对应的 cache 来加速 Hbase 的访问，比如 ca...

2019-08-14 18:11:10 300

原创 Hive之--窗口函数

背景：平常我们使用 hive或者 mysql时，一般聚合函数用的比较多。但对于某些偏分析的需求，group by可能很费力，子查询很多，这个时候就需要使用窗口分析函数了~注：hive、oracle提供开窗函数，mysql8之前版本不提供，但Oracle发布的 MySQL 8.0版本支持窗口函数（over）和公用表表达式（with）这两个重要的功能！一、相关函数说明OVER()：指定分...

2019-08-05 23:41:54 433

原创 Hive之--行转列collect和列转行explode

一、行专列1.相关函数说明concat(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串; concat_ws(separator, str1, str2,...)：它是一个特殊形式的 concat()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过...

2019-08-05 19:17:10 929

原创 Hive集合数据类型

Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似，而STRUCT与C语言中的Struct类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。数据类型描述语法示例 STRUCT 和c语言中的struct类似，都可以通过...

2019-08-02 18:14:23 502

原创 Hadoop的HA集群搭建详细步骤

一、环境准备1. 修改IP2. 修改主机名及主机名和IP地址的映射3. 关闭防火墙4. ssh免密登录5. 安装JDK，配置环境变量等二、集群规划表2-1 hadoop集群规划 hadoop112 hadoop113 hadoop114 NameNode NameNode Journ...

2019-07-31 20:08:17 577

原创 HDFS的I/O流操作

采用IO流的方式实现数据的上传和下载。package com.fczheng.hdfs;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net....

2019-07-23 21:16:43 202

原创 Hadoop分布式集群搭建详细步骤

主机名和ip映射如下： 192.168.1.110 hadoop110 192.168.1.111 hadoop111 192.168.1.112 hadoop112一、Linux环境准备1、更改主机名（注：次操作分别在hadoop110,hadoop111,hadoop112上操作）[hadoop@hadoop110 ~]$ su root[root@hadoop...

2019-07-23 00:11:02 348

原创 Hadoop分布式集群搭建之--SSH无密登录配置

1、配置ssh实现hadoop100免秘钥登录hdoop101和hadoop102。2、免秘钥登录原理如下图所示：3、生成公钥和私钥：注：本操作hadoop用户已经创建，执行路径为/home/hadoop/.ssh[hadoop@hadoop100 .ssh]$ ssh-keygen -t rsa注：然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa...

2019-07-22 20:47:46 455

原创 HDFS客户端的API操作

下面的代码对HDFS的客户端操作，即HDFS文件的上传，HDFS文件的下载，HDFS文件夹的删除，HDFS文件名的更改，HDFS文件详情的查看。代码如下：package com.fczheng.hdfs;import java.io.File;import java.io.IOException;import java.net.URI;import java.net.UR...

2019-07-22 20:03:04 232

原创 Hadooop分布式集群搭建之--ntp同步集群时间

时间同步方式：hadoop112作为时间服务器，hadoop113、hadoop114定时同步hadoop112的时间，每10分钟同步一次。配置时间同步具体实操：1、时间服务器配置（必须root用户）1、检查ntp是否安装[root@hadoop112 hadoop]# rpm -qa|grep ntpfontpackages-filesystem-1.41-1.1.el6.noarch...

2019-07-20 19:11:15 444

fczheng的博客