- 博客(22)
- 收藏
- 关注
原创 Flink求TopN
一、数据字段如下: 字段名 数据类型 说明 userId Long 加密后的用户ID itemId Long 加密后的商品ID categoryId Int ...
2019-11-08 20:49:04
2052
原创 Spark Streaming 读取Kafka数据
1.引入Maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</vers...
2019-10-11 17:02:24
290
1
原创 Spark从 Hbase 读写文件
由于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现,Spark 可以通过Hadoop输入格式访问 HBase。这个输入格式会返回键值对数据,其中键的类型为org. apache.hadoop.hbase.io.ImmutableBytesWritable,而值的类型为org.apache.hadoop.hbase.client....
2019-10-08 20:41:28
230
原创 Spark从 Mysql 数据库读写文件
1.引入maven依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> &...
2019-10-08 18:40:23
212
原创 Shell中单引号和双引号区别
1、创建一个脚本[hadoop@hadoop104 fczheng]$ vim test.sh在文件中添加如下内容:#!/bin/bashdo_time=$1echo '$do_time'echo "$do_time"echo "'$do_time'"echo '"$do_time"'echo `date`2、执行结果[hadoop@hadoop104 fc...
2019-08-29 15:25:59
115
原创 Kafka启动后进程过一段时间自己消失,问题解决
我的Kafka有三个节点,启动kafka后进程过一段时间后会自己消失。解决问题思路如下:由于kafka依赖于zookeeper,启动后要去zookeeper中注册,启动kafka时:先启动zookeeper,保证zookeeper服务正常后,后再启动Kafka。关闭Kafka时:先关闭kafka,再关闭zookeeper。保证启动和停止无误后,如果kafka启动后,kafka进程...
2019-08-28 13:00:37
8887
3
原创 DataX3.0入门简介
一篇不错的介绍DataX的文章,转载自:https://blog.csdn.net/u014646662/article/details/82792725 ,感谢原作者。一. DataX3.0概览二、DataX3.0框架设计三. DataX3.0插件体系四、DataX3.0核心架构五、DataX 3.0六大核心优势对人工智能感兴趣的同学,可以点击以下链接:现在人工智能非...
2019-08-23 21:15:53
302
原创 Hadoop集群安全模式
基本语法:集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。功能描述:查看安全模式状态hdfs dfsadmin -safemode get功能描述:进入安全模式状态hdfs dfsadmin -safemode enter功能描述:离开安全模式状态hdfs dfsadmin -safemode leave功能描述:等...
2019-08-23 20:34:34
473
原创 使用MapReduce将HBASE表中的数据导入到HDFS
目标:将HBase中student表中的数据,通过MR迁移到HDFS的hdfs://hadoop112:9000/user/hadoop/out1路径下。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId...
2019-08-16 21:32:06
1047
原创 使用MapReduce把HBase表中的数据迁移到另一张HBase表中
目标:将HBase中student表中的数据,通过MR迁入student_mr表中。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>h...
2019-08-16 20:03:13
621
原创 Hbase Region下线故障修复
当发现HBASE的某张表无法正常访问,或scan时:发现故障后,检查hbase(以student表为例):[hadoop@hadoop112 ~]$ hbase hbck -details student结果重要部分如下:Summary:Table student is okay. Number of regions: 0 Deployed on: Tabl...
2019-08-16 12:36:56
1988
1
原创 Arrays.copyOf()与System.arraycopy()的区别
如果我们想拷贝一个数组,我们可能会使用Arrays.copyof()或者System.arraycopy()两种方式。在这里,我们将使用一个比较简单的示例来阐述两者之间的区别。一、首先System.arraycopy()首先观察先System.arraycopy(Object src, int srcPos, Object dest, int destPos, int length)的声明...
2019-08-15 11:16:33
548
原创 HBase架构简介
一、HBase架构HBase架构图如下: 从图中可以看出 Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成,下面来介绍一下几个组件的相关功能:1 )ClientClient 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的访问,比如 ca...
2019-08-14 18:11:10
300
原创 Hive之--窗口函数
背景:平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~注:hive、oracle提供开窗函数,mysql8之前版本不提供,但Oracle发布的 MySQL 8.0版本支持窗口函数(over)和公用表表达式(with)这两个重要的功能!一、相关函数说明OVER():指定分...
2019-08-05 23:41:54
433
原创 Hive之--行转列collect和列转行explode
一、行专列1.相关函数说明concat(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; concat_ws(separator, str1, str2,...):它是一个特殊形式的 concat()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过...
2019-08-05 19:17:10
929
原创 Hive集合数据类型
Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。 数据类型 描述 语法示例 STRUCT 和c语言中的struct类似,都可以通过...
2019-08-02 18:14:23
502
原创 Hadoop的HA集群搭建详细步骤
一、环境准备1. 修改IP2. 修改主机名及主机名和IP地址的映射3. 关闭防火墙4. ssh免密登录5. 安装JDK,配置环境变量等二、集群规划表2-1 hadoop集群规划 hadoop112 hadoop113 hadoop114 NameNode NameNode Journ...
2019-07-31 20:08:17
577
原创 HDFS的I/O流操作
采用IO流的方式实现数据的上传和下载。package com.fczheng.hdfs;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net....
2019-07-23 21:16:43
202
原创 Hadoop分布式集群搭建详细步骤
主机名和ip映射如下: 192.168.1.110 hadoop110 192.168.1.111 hadoop111 192.168.1.112 hadoop112一、Linux环境准备1、更改主机名(注:次操作分别在hadoop110,hadoop111,hadoop112上操作)[hadoop@hadoop110 ~]$ su root[root@hadoop...
2019-07-23 00:11:02
348
原创 Hadoop分布式集群搭建之--SSH无密登录配置
1、配置ssh实现hadoop100免秘钥登录hdoop101和hadoop102。2、免秘钥登录原理如下图所示:3、生成公钥和私钥:注:本操作hadoop用户已经创建,执行路径为/home/hadoop/.ssh[hadoop@hadoop100 .ssh]$ ssh-keygen -t rsa注:然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa...
2019-07-22 20:47:46
455
原创 HDFS客户端的API操作
下面的代码对HDFS的客户端操作,即HDFS文件的上传,HDFS文件的下载,HDFS文件夹的删除,HDFS文件名的更改,HDFS文件详情的查看。代码如下:package com.fczheng.hdfs;import java.io.File;import java.io.IOException;import java.net.URI;import java.net.UR...
2019-07-22 20:03:04
232
原创 Hadooop分布式集群搭建之--ntp同步集群时间
时间同步方式:hadoop112作为时间服务器,hadoop113、hadoop114定时同步hadoop112的时间,每10分钟同步一次。配置时间同步具体实操:1、时间服务器配置(必须root用户)1、检查ntp是否安装[root@hadoop112 hadoop]# rpm -qa|grep ntpfontpackages-filesystem-1.41-1.1.el6.noarch...
2019-07-20 19:11:15
444
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人