老王的小知识-CSDN博客

原创 Spark深入解析：博文大纲

目录Spark基础解析SparkScoreSparkSqlSparkStreamingStructuredStreamingSpark基础解析Spark深入解析（一）：Spark的前世今生https://blog.csdn.net/wzc8961661/article/details/105605342Spark深入解析（二）：Spark与Hadoop、MapReduce、Hive、Storm关系与对比https://blog.csdn.net/wzc8961661/article/details

2020-05-09 00:00:02 1570 3

原创关于各种资源包的说明

关于本人博客中所下载安装的各种资源包，如有需要可以私信本人。

2020-03-18 23:18:06 354

原创已知url地址，批量下载图片到指定目录

package demo02;import java.io.*;import java.net.URL;import java.util.ArrayList;import java.util.List;/** * 实现批量下载url图片 */public class DownImages { public static void main(String[] args) { //txt文件路径 String path = "txt文件路径";

2020-12-15 16:46:44 1866 1

原创 Spark深入解析（十九）：SparkSQL之Spark SQL概述

目录Spark SQL官方介绍什么是Spark SQLSpark SQL的特点Spark SQL的优缺点Hive和Spark SQLSpark SQL数据抽象什么是 DataFrame什么是 DataSetRDD、DataFrame、DataSet的区别Spark SQL官方介绍官网 http://spark.apache.org/sql/什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分

2020-05-08 23:30:55 3490 1

原创 Spark深入解析（十八）：SparkCore之扩展之RDD相关概念关系

目录RDD相关概念关系RDD相关概念关系输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与...

2020-05-07 23:17:02 2324

原创 Spark深入解析（十七）：SparkCore之RDD编程进阶

目录累加器系统累加器自定义累加器广播变量（调优策略）累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果...

2020-05-06 21:38:31 2638

原创 Spark深入解析（十六）：SparkCore之数据读取与保存

目录文件类数据读取与保存Text文件Json文件Sequence文件对象文件文件系统类数据读取与保存HDFSMySQL数据库连接HBase数据库 Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。文件类数据读...

2020-05-05 21:43:09 1852

原创 Spark深入解析（十五）：SparkCore之键值对RDD数据分区器

目录获取RDD分区Hash分区Ranger分区自定义分区 Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(...

2020-05-04 22:44:54 1708

原创 Spark深入解析（十四）：SparkCore之RDD的持久化/缓存、容错机制Checkpoint

目录RDD的持久化/缓存持久化/缓存API详解代码演示RDD的容错机制Checkpoint代码演示持久化和Checkpoint的区别RDD的持久化/缓存在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解persist方法和c...

2020-05-03 21:13:22 2160 1

原创 Spark深入解析（十三）： SparkCore之RDD依赖关系、DAG生成、划分Stage

目录Lineage宽窄依赖如何区分宽窄依赖为什么要设计宽窄依赖DAG（有向无环图）DAG划分StageLineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）...

2020-05-02 15:56:09 2101

原创 Spark深入解析（十二）：SparkCore之RDD中的函数传递

目录传递一个方法传递一个属性在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法1．创建一个类class Search(s:String){//过滤出包含字符串的数据 def isMatch(s: String): Bool...

2020-05-01 14:33:34 1623

原创 Spark深入解析（十一）：SparkCore之RDD的转换之Action动作算子

目录reduce(func)案例collect()案例count()案例first()案例take(n)案例takeOrdered(n)案例aggregate案例fold(num)(func)案例saveAsTextFile(path)saveAsSequenceFile(path)saveAsObjectFile(path)countByKey()案例foreach(func)案例reduce...

2020-04-30 22:17:24 2139

原创 Spark深入解析（十）：SparkCore之RDD的转换之Key-Value类型

目录partitionBy案例groupByKey案例reduceByKey(func, [numTasks]) 案例==reduceByKey和groupByKey的区别==aggregateByKey案例foldByKey案例combineByKey[C] 案例sortByKey([ascending], [numTasks]) 案例mapValues案例join(otherDataset, ...

2020-04-29 23:21:56 2774

原创 Spark深入解析（九）：SparkCore之RDD的转换-双Value类型

目录union(otherDataset) 案例subtract (otherDataset) 案例intersection(otherDataset) 案例cartesian(otherDataset) 案例zip(otherDataset)案例union(otherDataset) 案例作用：对源RDD和参数RDD求并集后返回一个新的RDD需求：创建两个RDD，求并集（1）创建第一个R...

2020-04-28 22:41:21 3535

原创 Spark深入解析（八）：SparkCore之RDD的转换-Value类型

目录map(func)案例mapPartitions(func) 案例mapPartitionsWithIndex(func) 案例flatMap(func) 案例==map()和mapPartition()的区别==glom案例groupBy(func)案例filter(func) 案例sample(withReplacement, fraction, seed) 案例distinct([num...

2020-04-27 22:58:17 3217

原创 Spark深入解析（八）：Spark整合YARN报错或无法查看日志

目录如果整合Yarn报错或无法查看log需做如下操作如果要整合YARN历史服务器和Spark历史服务器，则还需要如下操作配置历史日志服务器本地调试如果整合Yarn报错或无法查看log需做如下操作1.修改hadoop的yarn-site.xmlvim /export/servers/hadoop/etc/hadoop/yarn-site.xml <property>...

2020-04-26 23:18:34 4507

原创 Spark深入解析（七）：SparkCore之IDEA编写WordCount

学习目标pom.xml本地运行集群运行Spark参数详解pom.xml创建Maven项目并补全目录，配置pom.xml文件//pom文件中此处可将scala修改java或重新创建scala包<sourceDirectory>src/main/scala</sourceDirectory> <testSourceDirectory>src/...

2020-04-25 23:27:36 2837 1

原创 Spark深入解析（六）：SparkCore之Spark代码编写WordCount

学习目标WordCount思路WordCount代码实现WordCount思路准备数据将数据放在以下目录中1.txt Hello World Hello Scala2.txt Hello Spark图解分析说明：1、本地读取两个文件2、两个文件内的数据3、将文件内的数据进行扁平化4、将相同单词进行分组5、聚合计算每个单词的个数WordCoun...

2020-04-24 23:35:20 3364

原创 Spark深入解析（五）：SparkCore之RDD编程模型

学习目标编程模型RDD的创建编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行R...

2020-04-23 22:59:45 1970

原创 Spark深入解析（四）：SparkCore之RDD概述

学习目标什么是RDDRDD的主要属性==小结！！！==RDD的特点什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。弹性分布式数据集（保存在内存中）弹性：RDD中的数据可以保存在内存中或者磁盘里面。分布式：分布式存储的，可以用于分...

2020-04-22 23:40:45 1973

原创 Spark深入解析（三）：Spark基础解析之Spark环境搭建（不同模式）

学习目标Local本地模式安装启动spark-shell初体验-读取本地文件初体验-读取HDFS文件Standalone集群模式集群角色介绍集群规划修改配置并分发启动和停止查看web界面Standalone-HA高可用模式原理配置HA启动Zookeeper集群启动Spark集群测试HAOn Yarn集群模式准备工作Cluster模式Client模式两种模式的区别需要资源包，可私信博主！以下代码...

2020-04-21 22:24:31 2208

原创 Kafka知识点总结

下图所体现出来的知识点：红色字体表示隐藏知识点1、kafka生态系统四大角色：生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、Zookeeper。2、每个消费者都必须属于一个消费组，一个组内的消费者可以有多个。3、一个Topic（主题）可以有1到多个Partition（分区）。4、一个Partition可以有1到多个 segment。5、每个...

2020-04-20 22:07:30 1866

原创 Spark深入解析（二）：Spark基础解析之Spark与Hadoop、MapReduce、Hive、Storm关系与对比

学习目录Spark VS HadoopSpark VS MapReduce的计算模型Spark VS HiveSpark Streaming VS Storm拿图，转发，请留言，谢谢，支持原创！！！Spark VS Hadoop 尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop，Spark主要用于替代Hadoop中的MapReduce计算模型。存...

2020-04-19 16:40:02 2372

原创 Spark深入解析（一）：Spark基础解析之Spark的前世今生

学习目录Spark是什么？Spark的介绍Spark的整体架构Spark的历史Spark的特点Spark为什么会流行？Spark的运行模式Spark是什么？ Apache Spark是用于大规模数据处理的统一分析引擎，是一种通用的大数据计算框架，如传统的大数据技术：Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。 Spark基于内存计算，提高了在大数据环...

2020-04-18 22:41:33 2050

原创 Scala练习题

目录题目第一题第二题第三题第四题第五题第六题第七题第八题第九题第十题第十一题第十二题第十三题第十四题第十五题第十六题第十七题第十八题第十九题第二十题第二十一题第二十二题第二十三题第二十四题题目1、创建一个demo1的单例，在demo1中创建一个样例类名字为student1，成员变量为name:String, age:Int创建主方法实例化student，并传参数（“xiaoming”,20）...

2020-04-05 23:03:05 4040

原创 Linux学习（九）：安装Tomcat

学习目标第一步：上传解压第二步：启动tomcat第三步：查看启动日志第四步：关闭tomcat关于tomcat的一些说明第一步：上传解压上传目录rz+回车选择tomcat软件包上传至：/export/softwares解压目录将压缩包解压到：/export/servers解压命令： tar -zxvf apache-tomcat-6.0.53.tar.gz -C /export/se...

2020-03-18 23:17:28 2690

原创 kafka架构详解图

生产到消费备份副本1备份副本2leaderfollwer第二个生产到消费元数据信息，节点信息等记录到zk中

2020-03-18 22:43:38 3128

原创 Kafka学习（四）：Kafka架构详解

学习目标kafka架构介绍kafka架构内部细节剖析kafka架构介绍1、生产者 API允许应用程序发布记录流至一个或者多个kafka的主题 topics（生产数据到topic）。2、消费者 API允许应用程序订阅一个或者多个主题，并处理这些主题接收到的记录流（读取数据，消费数目）。3、StreamsAPI允许应用程序充当流处理器（stream processor），从一...

2020-03-18 22:20:03 1428

原创 Kafka集群设置一键启动/一键停止脚本

学习目标创建一键启动 kafka集群创建一键停止 kafka集群创建一键启动 kafka集群进入目录cd /export/servers/kafka_2.11-1.0.0/bin编写一键启动配置文件vim kafka-start-all.sh#!/bin/shfor host in node01 node02 node03do ssh $host "source ...

2020-03-18 22:01:58 2194 1

原创 Kafka学习（三）：Kafka集群环境搭建

学习目标初始化环境准备下载安装包并上传解压node01服务器修改 kafka 配置文件安装包分发到其他服务器（node02，node03）node02 与 node03 服务器修改配置文件kafka 集群启动与停止初始化环境准备安装 JDK安装JDK参考链接：安装 Zookeeper ，并保证 zk 服务正常启动安装Zookeeper参考链接：下载安装包并上传解压node01 执...

2020-03-18 21:59:01 2046

原创 Kafka学习（二）：初识Kafka

学习目标初识KafkaKafka的基本介绍Kafka的好处分布式的发布与订阅系统kafka的主要应用场景初识KafkaKafka的基本介绍官网：http://kafka.apache.org/kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统（分布式MQ系统），可以用于搜索日志，监控日志，访问日志等。最初由linkedin公司开发，使用scala语言编写。kafka对...

2020-03-18 21:58:34 1875

原创 Linux学习（八）：JDK 1.8安装部署

学习目标JDK安装部署第一步：上传安装包并解压第二步：配置环境变量第三步：source 环境变量让其生效第四步：验证是否配置成功第五步：验证版本JDK安装部署在实际企业中尽量不删除系统中原有的版本，所以此处我们直接安装jdk即可。第一步：上传安装包并解压1、rz+回车，选择 jdk-8u144-linux-x64.tar.gz 上传（如果rz不出来执行 yum -y install lr...

2020-03-18 21:47:37 2890

原创 Linux学习（七）：RPM软件包管理器

学习目标基本概念实现基本概念通过 rpm命令实现对软件的安装、查询、卸载RPM 是Red-Hat Package Manager（RPM软件包管理器）的缩写虽然打上了 red-hat 的标记, 但是理念开放, 很多发行版都采用, 已经成为行业标准实现第一步：rpm包的查询命令查询已安装的rpm列表rpm -qa | grep XXX rpm -qa | les...

2020-03-18 21:13:00 2232

原创 Linux学习（六）：挂载ISO镜像和yum资源库

学习目标Linux系统挂载ISO文件的两种方式方式一：通过VM设置方式二：通过上传本地iso本地yum源（本地资源库，不联网情况下）yum的原理常用指令制作本地yum源网络yum源原理安装 httpd 软件制作局域网yum源Linux系统挂载ISO文件的两种方式方式一：通过VM设置目标因为Linux系统镜像中包含了常用的软件包，就不用了从网上下载了所以需要挂载持有系统镜像的光驱路...

2020-03-18 21:12:15 5502 1

原创 Linux学习（五）：挂载新的硬盘

学习目标虚拟机增加一块硬盘（手动挂载/自动挂载）第一步：了解Linux系统分区的原理第二步：查看系统分区的情况第三步：虚拟机增加硬盘第四步：分区第五步：格式化第六步：挂载第七步：设置重启后挂载不失效小结虚拟机增加一块硬盘（手动挂载/自动挂载）第一步：了解Linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要让硬件和系统的目录建立映射关系(挂载) 才可以操作...

2020-03-18 21:11:21 2197

原创 Zookeeper集群设置一键启动/一键停止脚本

学习目标设置一键启动 Zookeeper 脚本设置一键停止 Zookeeper 脚本设置一键启动 Zookeeper 脚本进入目录cd /export/servers/zookeeper-3.4.5-cdh5.14.0/bin/编写一键启动配置文件vim zkStart-all.shfor host in node01 node02 node03do ssh $ho...

2020-03-17 23:52:32 3591 1

原创 Kafka学习（一）：消息队列

学习目标消息队列的介绍消息队列的应用场景消息队列应用场景详解消息队列的两种模式点对点模式发布/订阅的方式企业中离线业务场景，实时业务场景都需要使用到 Kafka。Kafka 具备数据的计算能力和存储能力，但是两个能力相对（MR/SPARK,HDFS）较弱。Kafka 角色的角色与 Hbase 比较像，层级关系比较多。消息队列的介绍消息（Message）：是指应用之间传送的数据，或点与点之...

2020-03-17 20:31:49 2047

原创 Redis学习（六）：Redis的主从复制架构和哨兵机制

学习目标Redis的主从复制架构redis当中的Sentinel架构（哨兵机制）Redis的主从复制架构解决IT行业读写瓶颈的终极解决方案读写分离将读取的操作和写入的操作完全物理分隔开。多个节点读写分离：例如1、2、3节点负责数据写入，4、5、6节点负责数据读取。单节点多磁盘的读写分离：例如一个节点内1、2、3磁盘负责数据写入，4、5、6磁盘负责数据读取。在Redis中，用户可以...

2020-03-16 16:52:45 2245

原创 Redis学习（五）：Redis的持久化

学习目标简介简介由于redis是一个内存数据库，所有的数据都是保存在内存当中的，内存当中的数据极易丢失，所以redis的数据持久化就显得尤为重要，在redis当中，提供了两种数据持久化的方式，分别为RDB以及AOF，且redis默认开启的数据持久化方式为RDB方式。方案一：RDB模式Redis会定期保存数据快照至一个rbd文件中，并在启动时自动加载rdb文件，恢复之前保存的数据。可以在配置...

2020-03-16 16:01:10 2119

原创 Linux学习（四）：Shell编程

学习目标简介快速入门Shell变量字符串传递参数Shell算术运算符流程控制函数使用数组加载其他文件的变量简介Shell 是一个用 C 语言编写的程序，通过 Shell 用户可以访问操作系统内核服务Shell 既是一种命令语言，又是一种程序设计语言Shell script 是一种为 shell 编写的脚本程序；Shell 编程一般指 shell脚本编程，不是指开发shell本身Shel...

2020-03-16 00:12:27 2589 1

SecureCRTSecureFX_HH_x64_7.0.0.326.zip

空空如也