大数据与云计算开发者Cd-CSDN博客

原创 Azure AD 与 AWS 单一帐户SSO访问集成【包含阿里在最后】，超详细讲解，包括解决可能出现的错误问题

AWS SSO单点登录

2023-03-09 11:23:17 1711

原创 Docker安装K8S集群超详细讲解

docker安装K8S完整讲解

2022-07-21 15:38:38 6470

原创世界新冠疫情数countrydata.csv 表，实战分析

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。四、功能要求1.数据准备请在 HDFS 中创建目录/app/data/exam，并将 countrydata.csv 传到该目录。2.在 Spark-Shell 中，加载 HDFS 文件系统 countrydata.csv 文件，并使用 RDD 完成以下统计计算。[root@gree2 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam.

2022-01-06 23:50:03 2671

原创在线考试系统学员答题批改日志，实战练习

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境三、数据描述这是一份来自于某在线考试系统的学员答题批改日志，日志中记录了日志生成时间,题目难度系数，题目所属的知识点 ID，做题的学生 ID，题目 ID 以及作答批改结果。日志的结构如下：四、功能要求1.数据准备请在 HDFS 中创建目录/app/data/exam，并将 answer_question.log 传到该目录。[root@gree2 exam]# hdfs dfs -mkdir -p

2022-01-06 23:42:21 564

原创阿里巴巴淘宝用户行为数据集，UserBehavior表实战分析

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境二、数据描述 UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户 ID、商品 ID、商品类目 ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下具体字段说明如下：三、功能要求1.数据.

2022-01-05 16:36:07 7018 4

原创美团外卖平台的部分外卖 SPU数据实操练习

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境。三、数据描述 meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU（Standard Product Unit ，标准产品单元）数据，包含了外卖平台某地区一时间的外卖信息。具体字段说明如下：四、功能要求1.数据准备请在 HDFS 中创建目录/app/data/exam，并将 meituan_waimai_meishi.csv 文件传到该目录。并通过 HDFS 命令查询出文..

2022-01-04 17:37:26 2552

原创 Spark高级操作之JSON文件实操练习

演示的日志文件为 op.log,内容为按照日志格式进行切割 val conf = new SparkConf().set("spark.testing.memory","2147480000").setMaster("local[*]").setAppName("sparkDemo1") val sc = SparkContext.getOrCreate(conf) val spark = SparkSession.builder().appName("SparkJson.

2021-12-14 17:41:43 1350

原创 Spark高级操作之json复杂和嵌套数据结构的操作

一，基本介绍spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在spark的Structured Streaming也可以使用这些功能函数。下面主要介绍：A：get_json_object()B：from_json()C：to_json()D：explode()E：selectExpr()二，实例演示首先，创建一个没有任何嵌套的JSon Schema，在xshell和idea里.

2021-12-14 16:02:12 791

原创 Scala函数大全命令提示符页面应用,可按A-W顺序查看

++ count hasDefiniteSize maxBy sameElements toBuffer++: deep head min scan toIndexedSeq+: diff..

2021-12-01 19:57:08 727

原创 linux jdk，hadoop，zookeeper, hive , zeppelin ,sqoop ,hbase,scala,spark，flume,kafka 安装终极脚本全家桶安装

shellz只需要在opt准备两个文件夹，一个install存放压缩包，soft存放解压后的文件就行接着就开始运行脚本，脚本随便创建一个文件吧脚本拷贝进去，赋权运行就行里面所有的ip地址改为自己的就行。虚拟机你的hostname一定要设置好，不然脚本里面所有的$hostname，你都要改为你的ip地址就行#!/bin/bashjdk=truehadoop=truezk=truehive=truezp=truesqoop=truehbase=true..

2021-11-26 17:32:33 1588

转载 hive的数据倾斜问题

数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之group by聚合倾斜原因：分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；对一些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进行group by的时候，会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合，而当其中每一组的数据量过大时，会出现其他组的计算已经完成而这个reduce还没有计算完成，其他的节点一直等待这个节点的任务执行

2021-11-26 14:27:26 208

原创 sqoop原理和基本应用

1.sqoop的介绍（1）介绍：Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据：MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。导出数据：从hadoop的文件系统中导出数据到关系型数据库中。（2）工作机制将导入导出的命令翻译成MapReduce程序来实现，并且MapReduce程序不需要reducetask的。在翻译出的MapReduce中主要针对对 InputFormat 和 O.

2021-11-26 14:09:18 625

转载什么是hbase，详解

HBase简介HBase的发展史2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起，2008年成为Apache Hadoop的一个子项目。现已作为产品在多家企业被使用，如：WorldLingo Streamy.com OpenPlaces Yahoo! Adobe 淘宝 Facebook Twitter Trend MicroHbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规

2021-11-26 13:52:29 716

原创 hbase常用命令

进入到hbase shell[root@gree139 conf]# hbase shell 查看版本hbase(main):001:0> version查看命名空间类似于库名hbase(main):008:0> list_namespaceNAMESPACE default ...

2021-11-25 16:53:24 321

原创什么是拉链表，并通过hive进行实现

拉链表产生背景在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1、数据量比较大；2、表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等；3、需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等；4、变化的比例和频率不是很大，比如，总共有1000万的会员，每天新增和发生变化的有10万左右；5、如果对这边表每天都保留一份全量，那么每次全量中会保存很多不变的信息，对存

2021-11-25 16:45:31 2829

原创在虚拟机中搭建高可用集群，超详解，保姆级教学

先确定你的高可用集群分布表我的是，一定要记住自己的到时候配置xml的时候要对照自己的来接着启动虚拟机开始搭建

2021-11-05 11:09:42 1377

原创用MapReduce实现2个表的join连接与查询

首先准备两个CVS表单我第一个表单为customer第二个表单为order接着实现2表连接查询首先写一个实体类CustomerOrder。定义变量package cn.kgc.kb15.demo05;import org.apache.hadoop.io.WritableComparable;import javax.xml.crypto.Data;import java.io.DataInput;import java.io.DataOutput;imp..

2021-11-05 09:20:06 2391

原创在虚拟机中搭建Hadoop环境，详解

首先将hadoop解压包放入目录下解压hadoop解压包，解压到/opt/soft里面[root@gree6 install]# tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/soft解压完看soft里面是否有呢接着改个名[root@gree6 soft]# mv hadoop-2.6.0-cdh5.14.2/ hadoop260接着开始配置环境[root@gree6 soft]# vi /etc/pro...

2021-11-03 16:45:45 2850 1

原创写一个安装LinuxJDK脚本

首先将jdk加压包放入一个目录下接着在opt目录下创建一个文件，进入shell里面[root@gree5 opt]# mkdir shell建立一个文件[root@gree5 shell]# vi ./installJdk.sh写入代码#!/bin/bashjdk=trueinstalldir=/opt/softif [ ! -d "$installdir" ];then mkdir $installdirfiif [ "$jdk"=true ]; t.

2021-11-03 15:58:58 145

原创如何实现夸虚拟机免密登录，能够通过一台进入其他虚拟机

首先给你的虚拟机取个别名，[root@gree1 ~]# hostnamectl set-hostname gree1查看别名[root@gree1 ~]# hostnamegree1[root@gree1 ~]# vi /etc/hosts修改hosts这时候ping一个接着开始设置秘钥进行所有虚拟机的夸虚拟机免密登录首先生成秘钥[root@gree1 ~]# ssh-keygen -t rsa -P ""[root@gree1...

2021-11-03 15:39:00 496

原创虚拟机建立高可用集群。单机和集群版，保姆级教学

首先建立集群的前提条件是你的每个虚拟机之间能够ping通，并且能够相互连接和自连接，并且你虚拟机都要有java jdk的环境其他虚拟机都要实现这个要求没有ping通的原因是进入[root@gree2 ~]# vi /etc/hosts看这里有没有写全，host我命名为gree个人按照个人的来接着开始安装单机版集群，进入opt我这里有个install文件夹专门放解压包的开始解压zookeeper包我放在opt目录下的soft下[root@gr..

2021-11-03 15:10:48 1767

原创 IDEA遇到Exception in thread “main“ java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.Nativ

给小伙伴们介绍终极解决方法大家是这个问题，网上给两种方法一是，吧hadoop.dll放在c盘windows\system32里面，前提是环境变量都配好，具体的可以去其他博客看一下我的问题是上面这种方法都试了还是不行下面就是最后一种方法创建一个类，首先看我们的报错，点击报错处NativeIO.java:640就会跳到这里网上让吧return后面删了。然后改为true，但是这里是只读文件不能修改，所以创建一个类就行拉倒刚才打开的这个类最上面查看包全目录，并复制..

2021-10-27 14:37:31 2436

原创构建Mybatis基础框架，并且实现数据库的增删改查，保姆教学

首先准备创建工程，注意勾选Web下载mybatis-3.2.2.jar和一些架包并导入工程，加入架包后，这边会提示problem，点击修复FIX然后点击ok，这样架包就弄好了，然后在根目录下创建一个空包并且标记最后呈现是然后在idea里面连接上数据库这里不要填错就行接着在resources里面创建一个xml文件和配置连接数据库文件在scr下创建cn.kbc....

2021-09-24 19:32:26 178

原创 DAO模式的展示与properties文件存放数据库信息相结合，并进行数据分层

DAO 模式DAO (DataAccessobjects 数据存取对象)是指位于业务逻辑和持久化数据之间实现对持久化数据的访问。通俗来讲，就是将数据库操作都封装起来。对外提供相应的接口在面向对象设计过程中，有一些"套路”用于解决特定问题称为模式。DAO 模式提供了访问关系型数据库系统所需操作的接口，将数据访问和业务逻辑分离对上层提供面向对象的数据访问接口。从以上 DAO 模式使用可以看出，DAO 模式的优势就在于它实现了两次隔离。1、隔离了数据访问代码和业务逻辑代码。业务逻辑代码直接

2021-09-22 20:12:51 340

转载 MySQL中的行转列与列转行

行转列建表语句DROP TABLE IF EXISTS tb_score;CREATE TABLE tb_score( id INT(11) NOT NULL auto_increment, userid VARCHAR(20) NOT NULL COMMENT '用户id', subject VARCHAR(20) COMMENT '科目', score DOUBLE COMMENT '成绩', PRIMARY KEY(id))ENGINE = IN

2021-09-22 11:42:03 189

原创 MySQL中日期函数的用法与类型

mysql中常用的几种时间格式转换函数整理如下1，from_unixtime(timestamp, format)：timestamp为int型时间，如14290450779；format为转换的格式，包含格式如下：%M 月名字(January……December)%W 星期名字(Sunday……Saturday)%D 有英语前缀的月份的日期(1st, 2nd, 3rd, 等等。）%Y 年, 数字, 4 位%y 年, 数字, 2 位%a 缩写的星期名字(Sun……Sat)...

2021-09-22 11:01:58 126

原创 JDBC基础详细讲解

JDBC： 1. 概念：Java DataBase Connectivity Java 数据库连接， Java语言操作数据库 * JDBC本质：其实是官方（sun公司）定义的一套操作所有关系型数据库的规则，即接口。各个数据库厂商去实现这套接口，提供数据库驱动jar包。我们可以使用这套接口（JDBC）编程，真正执行的代码是驱动jar包中的实现类。 2. 快速入门： * 步骤： 1. 导入驱动jar包 mysql-connector-...

2021-09-22 10:33:43 215

原创 HTML和CSS的基本标签汇总

## web概念概述 * JavaWeb： * 使用Java语言开发基于互联网的项目 * 软件架构： 1. C/S: Client/Server 客户端/服务器端 * 在用户本地有一个客户端程序，在远程有一个服务器端程序 * 如：QQ，迅雷... * 优点： 1. 用户体验好 * 缺点： 1. 开发...

2021-09-22 10:02:43 944

原创 MySQL的汇编语法大全

DDL操作数据库创建数据库：create database 数据库名；举例：create database db1；判断数据库是否存在，不存在则创建数据库create database if not exists 数据库名；举例：create database if not exists db2；创建数据库并指定字符集create database 数据库名 character set 字符集；举例：create database db3 default character set..

2021-09-22 09:56:03 162

原创 JavaWeb中IDEA与Tomcat的配置安装与应用过程，保姆级教学

首先下载Tomcat包，下面是下载连接，根据你的电脑操作系统来决定下哪个版本Apache Tomcat® - Apache Tomcat 8 Software Downloads比如我的是win10——64位，我选的这个然后解压安装包到你的磁盘下后面用的话会用里面的这个文件接下里打开IDEA，创建工程，工程是Java Enterprice 勾选Web Appaction然后点击上面的run里面的Edit config......然后...

2021-09-17 21:00:58 106

原创统计一个文件calcCharNum.txt中各个字母出现次数：A(8),B(16),C(10)...,a(12),b(10),c(3)....，括号内代表字符出现次数；

public static void main(String[] args) throws IOException { // FileOutputStream f=new FileOutputStream("calcCharNum.txt"); File f=new File("calcCharNum.txt"); FileReader fr=new FileReader("calcCharNum.txt"); StringBuilder..

2021-09-06 23:35:30 539

原创统计一个文件calcCharNum.txt中字母‘A‘和‘a‘出现的总次数

txt文件为asdaGSJaAAJOIJFDAAAopfsegjAAA你好你好 public static void main(String[] args) throws IOException { // FileOutputStream f=new FileOutputStream("calcCharNum.txt"); FileReader fr=new FileReader("calcCharNum.txt"); StringBuilder .

2021-09-06 23:34:30 825

原创拷贝一张图片，从一个目录到另外一个目录下(PS:是拷贝是不是移动)

File f=new File("C:\\cd.jpg"); if (!f.exists()){ throw new IOException("文件不存在"); } FileInputStream fis=new FileInputStream(f); FileOutputStream fos=new FileOutputStream("D:\\cd2.jpg"); DataInputStream ..

2021-09-06 23:32:57 766

原创虚拟机的安装和MobaXterm_Portable相连接，并且在虚拟机上安装MySQL

第一步：VMware16的安装：下载：https://customerconnect.vmware.com/en/downloads/details?downloadGroup=WKST-1612-WIN&productId=1038&rPId=66626 安装：下一步就好了，安装路径自定义只有一个文件的选项要注意一定要选，最后一个的红色选项，点击后选择第二个this的那个然后需要密钥，可以网上找下资源！创建虚拟机：...

2021-09-06 14:00:29 855

原创某公司组织年会,会议入场时有两个入口,在入场时每位员工都能获取一张双色球彩票,假设公司有100个员工,利用多线程模拟年会入场过程,

题目要求：并分别统计每个入口入场的人数,以及每个员工拿到的彩票的号码。线程运行后打印格式如下：编号为: 2 的员工从后门入场! 拿到的双色球彩票号码是: [17, 24, 29, 30, 31, 32, 07] 编号为: 1 的员工从前门入场! 拿到的双色球彩票号码是: [06, 11, 14, 22, 29, 32, 15] //..... 从后门入场的员工总共: 13 位员工从前门入场的员工总共: 87 位员工线程段代码 private int i=1;

2021-09-03 10:23:09 437 1

原创 DDL操作数据库创建数据库：最详细入门数据库的增删查改的方法，新手必看

DDL操作数据库创建数据库：create database 数据库名；举例：create database db1；判断数据库是否存在，不存在则创建数据库create database if not exists 数据库名；举例：create database if not exists db2；创建数据库并指定字符集create database 数据库名 character set 字符集；举例：create database db3 default character set .

2021-09-03 10:22:55 306

原创用List方法,存储10个1-50(含50)的随机偶数元素,要求数字不能重复,添加完成后从大到小倒序遍历输出到控制台并使用10 流将集合中的元素按指定格式输出到当前项目的num.txt 中,

例如: 48,44,40,38,34,302......,指定格式要求用控制台输入，如：（1代表升序，2代表降序 public static void main(String[] args) throws IOException { ArrayList list = new ArrayList(); FileWriter fw=new FileWriter("num.txt",true); Random r = new Random(); .

2021-08-31 20:25:45 606

原创在d盘目录下有一个加密文件a.txt (文件里只有英文和数字)，密码是 “heima”,当密码输入正确时才能读取文件里的数据。现要求用代码来模拟读取文件的过程，并统计

public static void main(String[] args) throws IOException { FileReader fr = new FileReader("ooo3.txt"); StringBuilder sb = new StringBuilder(); int len; while ((len = fr.read()) != -1) { sb.append((char) len);..

2021-08-31 20:24:15 390

原创在c盘下有篇txt文本,读取这个文本并统计出这个文本中指定字符的个数(如指定字符为”我”),将该字符与对应的次数输出到当前项目的key.txt 中,例如:输出格式为:我=10

public static void main(String[] args) throws IOException { FileReader fr=new FileReader("ooo.txt"); StringBuilder sb=new StringBuilder(); int len; while ((len=fr.read())!=-1){ sb.append((char)len); .

2021-08-31 20:23:36 605

原创已知文件a.txt文件中的内容为“AAbcdea22dferwplkCC321ou1”请编写程序读取该文件内容，要求去掉重复字母(区分大小写字母)并按照自然排序顺序后输出到b.txt文件中。

public static void main(String[] args) throws IOException { File f = new File("a.txt"); if (!f.exists()) {//首先判断文件是否存在 throw new IOException("文件不存在"); } FileInputStream fis = new FileInputStream(f); byt.

2021-08-31 20:22:42 879

空空如也

空空如也