- 博客(23)
- 资源 (8)
- 收藏
- 关注
原创 堆与堆排序
堆与堆排序堆(二叉堆)定义描述:堆的逻辑结构为完全二叉树,在物理存储上一般表示为一种数组对象。数组中的数据按照其逻辑结构树的广度优先算法(队列优先)来存储对应的值。性质:堆中某个结点的值总是不大于或不小于其父结点的值;即:n个元素的序列{k1,k2,ki,…,kn}。 κi\kappa_iκi≤\leq≤κ2i\kappa_{2i}κ2i && κi\kappa_iκi≤\leq≤κ2i+1\kappa_{
2021-04-14 00:05:26
331
原创 hive 函数之二 窗口函数 与 分析函数
hive 函数之二 窗口函数 与 分析函数①排序函数1. order by -- 全局排序 所有map端数据,只在一个reduce端进行,全局排序 2. sort by -- 对每一个reduce中进行局部排序 因此在使用sort by之前,需要先设置Reduce的数量>1(set mapreduce.job.reduces=n;)才会做局部排序 distribute by 是控制 map 的输出在reduer 中是如何划分的。
2021-04-09 15:20:10
552
原创 Yarn container 资源分配 与task和Executor关系
Yarn container 资源分配 与task和Executor关系问题: spark on yarn 或者 mapreduce on yarn 中 container 的资源 与 maptask/reducetask 或 Executor的资源分配关系?Yarn container 的个数, 内存与CPU控制一. YARN 机器 – 预留内存总共保留的内存=系统内存+HBASE内存。每台机子内存系统需要的内存HBase需要的内存4GB1GB1GB8G
2021-03-26 13:18:40
2900
3
原创 Spark运行原理&相对mapreduce优势
Spark运行原理&相对mapreduce优势一. 相对mapreduce优势Spark 与 mapreduce 的重要概念区别mapreduce一个 mapreduce 就是一个job一个job 包含N个task ( Map Task /Reduce Task)一个task 对应一个进程Task运行开启进程, task完毕后销毁进程, 对于多个task而言, 开销是比较大的SparkApplication = Driver(mian中创建SparkContex
2021-03-24 19:09:13
633
原创 Hive数据倾斜以及资源分配调试
Hive数据倾斜以及资源分配① Group By 中的计算均衡优化1. map端聚合原理combiner 操作 – 目的: 减少shuffle的数据量[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KqUodkBg-1616497077437)(…/图片/hive图片/skew_map_agg.png)]场景groupby_key 在map端数据有大量重复的时候, 就需要开启。 如果groupby_key 是用户id, 几乎不会有重复的时候,就不
2021-03-23 19:44:55
894
原创 数据仓库建模与分层
数据仓库建模与分层一. 基本理解定义: 面向主题的,集成的,相对稳定的,反映历史变化的 数据集合,用于支持管理决策。什么是主题实体 + 事件怎样划分主题实体:业务关系的对象 ,可以是一个 人 或者 物, 比如:用户 , 订单事件:业务过程, 比如: 报名,注册 ,购买,退费如何相对稳定数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,通常只需要定期的加载、刷新。二. 数据仓库建模Inmon理论:自上而下。先以范式建模构
2021-03-22 16:27:57
2452
1
原创 Linux命令之2-结构话命令
Linux命令2 入门级,个人历史学习笔记整理分享存档,错误请指教使用结构话命令对脚本中命令执行的顺序施加一些逻辑流程控制,被称为结构化命令。1. if-thenif command # 如果该命令执行成功,则执行then后面的语句,否则退出then # 如果command 命令执行成功,会返回状态码0,就会执行 then的语句 commandsfi-----------------------------------------------------
2021-03-17 18:42:37
193
原创 Linux命令之1-基础命令
Linux命令 入门级,个人历史学习笔记整理分享存档,错误请指教基础命令1. manman命令用来访问存储在Liunx系统上的手册页面养成阅读手册的习惯,尤其是阅读第一段或者DESCRIPTION部分的前两段,会学会很多技术行话。Name 显示命令名和一段简短的描述Synopsis 命令的语法Description 命令的一般性描述Options 命令选项描述q 退出例如: man ls
2021-03-17 18:34:43
474
原创 git操作指南
git个人历史学习笔记整理分享存档,错误请指教1. git仓库初始化: git init2. 提交文件分为两步: git add test.txt //第一步是用git add把文件添加进去,实际上就是把文件修改添加到暂存区 git commit -m "测试类" //第二步是用git commit提交更改,实际上就是把暂存区的所有内容提交到当前分支 3. 查看git仓库状态: git status4. 查看对文件做了怎样的修改 git
2021-03-17 18:06:56
111
原创 Hive中map与reduce数量控制
1. 控制hive任务中的map数和reduce数map数量1.多少map数量合适:遵循两个原则: 使大数据量利用合适的map数;使单个map任务处理合适的数据量;2.主要决定因素:hdfs block-- input的文件总个数,input的文件大小,集群设置的文件块大小(默认128M)InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分 片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端
2021-03-17 15:47:00
1399
原创 Spark Streaming 动态读取配置
Spark Streaming 动态读取配置为什么要动态读取配置?在Spark 流式计算业务中, 比如通常复杂事件处理 (CEP) 的规则或者黑白名单一些配置数据. 当application 在运行期间读取相应的配置文件, 这个时候当这些名单发生改变时, 怎样能让application 动态的获取配置.目前一般采用采用两种实现方式:轮询拉取方式,即作业算子定时或其他方式检测在外部系统的配置是否有变更,若有则同步配置。控制流方式,即作业除了用于计算的一个或多个普通数据流以外,还有提供一个用
2021-03-17 15:15:40
726
转载 storm 架构与原理
storm 架构与原理1 storm简介1.1 storm是什么如果只用一句话来描述 storm 是什么的话:分布式 && 实时 计算系统。按照作者 Nathan Marz 的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存
2017-08-10 22:48:47
322
转载 MapReduce:详解Shuffle过程
/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job
2017-08-10 19:31:35
268
转载 Hbase底层数据结构
理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.Google's BigTable论文 清楚地解释了什么是BigTable:Bigtable是一个疏松的分布式的持久的多维排序的map,这个ma
2017-08-10 19:19:56
1387
转载 RPC深入浅出--深入篇
目录(?)[-]RPC 功能目标RPC 调用分类RPC 结构拆解RPC 组件职责RPC 实现分析导出远程接口导入远程接口与客户端代理协议编解码传输服务执行调用RPC 异常处理总结《深入篇》我们主要围绕 RPC 的功能目标和实现考量去展开,一个基本的 RPC 框架应该提供什么功能,满足什么要求以及如何去实现它?RPC 功能目标
2017-05-28 10:27:06
515
转载 RPC深入浅出--浅出篇
目录(?)[-]RPC 是什么RPC 起源RPC 结构RPC 实现总结本文来自本人独立博客,为获得更佳阅读体验,请点击 这里----------------------------------------------------------------------------------------------------近几年的项目中,服务
2017-05-28 10:25:42
2522
转载 js基础
js入门语法集锦-基础篇[日期:2017年5月14日] 来源:互联网 作者:小恩伴随着ajax的流行,js又得到了很多人的重视,js最大的优势就是它能够对html上的所有元素进行操作,包括创建标签元素,更改元素属性等,这样就使得我们能够利用js来实现很多的动态效果,来提供给用户更强的交互性!Js测试方法在调试Javascrip
2017-05-14 17:12:48
491
转载 java 反射机制详解
Java反射机制详解| |目录1反射机制是什么2反射机制能做什么3反射机制的相关API·通过一个对象获得完整的包名和类名·实例化Class类对象·获取一个对象的父类与实现的接口·获取某个类中的全部构造函数 - 详见下例·通过反射机制实例化一个类的对象·获取某个类的全部属性·获取某个类的全部方法·通过反射机制调用某个类的方法·通过反射机制操作某个类的属性·反射机制的动态代理4反射
2017-05-02 15:02:01
230
转载 spring IOC 注入方式 2--带有标签的注入 自动扫描
使用注解来构造IoC容器用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册。如:在base-package指明一个包1 context:component-scan base-package="cn.gacl.java"/>表明cn.gacl.java包及其子包中,如果某个类的头上带有特定的注解【@Component
2017-05-02 14:56:01
359
转载 Spring applicationContext.xml 路径配置(1)
[html] view plain copyweb.xml中classpath:和classpath*: 有什么区别? classpath:只会到你的class路径中查找找文件; classpath*:不仅包含class路径,还包括jar文件中(class路径)进行查找. 存放位置: 1:src下面
2017-05-02 14:52:53
779
转载 Spring applicationContext.xml 文件 路径配置 (2)
Spring配置文件详解 - applicationContext.xml文件路径spring的配置文件applicationContext.xml的默认地址在WEB-INF下,只要在web.xml中加入代码org.springframework.web.context.ContextLoaderListenerspring就会被自动加载但在实际的开发过程中,我们可能需
2017-05-02 14:46:59
415
转载 spring applicationContext.xml 配置文件详解
applicationContext.xml 文件[html] view plain copy print?xml version="1.0" encoding="UTF-8"?> beans xmlns="http://www.springframework.org/schema/beans" xmlns:context="http:
2017-05-02 14:41:50
464
转载 Spring IOC 常用注解
目录(?)[-]Import 类似于基于XML配置中的import基于Java的配置方式提供了Import来组合模块化的配置类自动装配默认根据类型装配如果指定name属性将根据名字装配可以使用如下方式来指定JSR-330注解注解实现Bean配置主要用来进行如依赖注入、生命周期回调方法定义等,不能消除XML文件中的Bean元数据定义,且基于XML配置中的依赖注入的数据将覆
2017-05-02 10:28:41
354
二维码生成及解析 jar包
2018-04-23
jstl 两个jar包
2018-04-03
azkaban 3.4 编译后安装文件,分布式多executor(赠送安装文档)
2018-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人