- 博客(22)
- 资源 (7)
- 收藏
- 关注
原创 Apache Kafka生产环境集群资源规划与配置
Apache Kafka生产环境集群资源规划与配置更多精选文章,可微信搜索 知了小巷,关注公众号并回复 资料 两个字,有大数据学习资料和视频。Kafka集群资源规划可以参考confluent版的部署建议:https://docs.confluent.io/current/kafka/deployment.html操作系统Kafka源码既包括Scala也有Java源文件,属于JVM体系的大数据框架。Java是跨平台语言,源码编译后可以运行在不同操作系统对应的JVM上面。尽管如此,Kafka运行
2020-11-04 00:38:53
610
1
原创 入门Apache Kafka需要了解的方方面面
入门Apache Kafka需要了解的方方面面可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。公众号后台回复 资料 ,可领取大数据2020学习视频资料。Apache Kafka是什么?Apache Kafka是一个开源的分布式消息引擎系统。Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)。Kafka社区的早期定位是:一个分布式、分区化且带备份功能的提交日志(Commit Log)服务。除了Kafka之外,还有诸如P
2020-10-29 18:28:58
353
原创 Spark源码解析-Yarn部署流程(ApplicationMaster)
Spark源码解析-Yarn部署流程(ApplicationMaster)可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。另外,公众号后台回复 资料 ,可领取大数据2020学习视频资料。前文【Spark源码解析Yarn部署流程(SparkSubmit)】中createContainerLaunchContext用来运行ApplicationMaster。主要调用是在:yarnClient.submitApplication(appContext)。RM:ResourceManager。
2020-10-13 22:14:26
1028
原创 Spark Core基础面试题总结(上)
Spark Core基础面试题总结(上)微信搜索公众号:知了小巷公众号后台回复“资料”两个字,有大数据神秘学习大礼包!1. Spark的几种部署模式及其特点SparkSubmit#prepareSubmitEnvironment//SettheclustermanagervalclusterManager:Int=args.mastermatch{case"yarn"=>YARNcasemifm.startsWith("spark")...
2020-10-08 21:56:56
1027
转载 详细分析 Java 中实现多线程的方法有几种?(本质)
正确说法(本质)实现多线程的官方正确方法: 2 种。Oracle 官网的文档说明https://docs.oracle.com/javase/8/docs/api/index.htmlpublic class Threadextends Objectimplements RunnableA thread is a thread of execution in a program. The Java Virtual Machine allows an application to have
2020-09-26 21:41:39
298
1
原创 TiDB binlog实时同步数据到下游Kafka
1 TiDB测试集群,使用tiup进行安装部署和运维操作。集群状态如下:2 简要介绍一下TiDB binlog架构TiDB Binlog集群主要分为Pump和Drainer两个组件,以及binlogctl工具:PumpPump用于实时记录TiDB产生的Binlog,并将Binlog按照事务的提交时间进行排序,再提供给Drainer进行消费。DrainerDrainer从各个Pump中收集Binlog进行归并,再将Binlog转化成SQL或者指定格式的数据,最终同步到下游。binlogc
2020-08-31 23:23:21
1834
1
原创 datax同步数据,从Oracle到Phoenix
Oracle数据源端文档说明https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.mdPhoenix4.x数据目标端文档说明https://github.com/alibaba/DataX/blob/master/hbase11xsqlwriter/doc/hbase11xsqlwriter.mdOracle:oraclereaderPhoenix:hbase11xsqlwriter实例json
2020-08-15 14:23:57
1029
2
原创 HBase数据采集和Phoenix表映射使用索引查询的问题(解决方案)
描述:需要将数据从Oracle批量和实时采集到HBase中,并通过Phoenix映射表进行查询,支持二级索引。二级索引类型选择使用覆盖索引。当在Phoenix表创建二级索引之后,从Oracle采集到HBase的增量数据并没有从二级索引的条件中筛选出来,也就是Phoenix没有自动为通过HBase API进来的增量数据创建和维护索引,一般需要rebuild,方式有两种:1.先删除索引,再重新创建索引2.ALTER语法以上均从Phoenix端进行操作。现在进行演示,数据采集工具使用D..
2020-08-13 11:13:06
643
转载 Hive程序相关规范-有助于调优
一份拥有良好代码风格的程序,有助于开发者发现性能问题,缩短调优的时间,降低维护成本,同时也能促进程序员的自我提高。规范分为三类:开发规范、设计规范和命名规范。</>开发规范# 单条SQL长度不宜超过一屏。# 少用或者不用Hint,特别是在Hive2.0后,增强HiveSQL对于成本调优(CBO)的支持,在业务环境变化时可能会导致Hive无法选用最优的执行计划。# 避免SQL代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存到临时表中。# 尽可能使用SQL..
2020-08-09 20:24:29
448
转载 HBase内部探险-数据模型
#</>数据模型HBase数据模型的核心概念Namespace(表命名空间):表命名空间不是强制的,默认是default。当想把多个表分到一个组去统一管理的时候才会用到表命名空间。类似传统关系型数据库中的数据库database或schema。Table(表):一个表由一个或者多个列族组成。它有一些数据属性,比如超时时间(TTL),压缩算法(COMPRESSION)等,都在列族的定义中定义。定义完列族后表是空的,只有添加了行,表才有数据。Row(行):一个行包含了多个列,这些列通.
2020-08-04 23:21:07
216
原创 StreamSets实时采集MySQL数据到HBase
本地HBase环境$ jps4082 Jps3556 NameNode3813 QuorumPeerMain3911 HMaster3642 DataNode3739 SecondaryNameNode3999 HRegionServer本地环境演示实例mysql环境$ docker psCONTAINER ID IMAGE COMMAND CREATED STATUS
2020-08-04 23:15:08
685
转载 数据中台为什么那么火?
数据中台为什么这么受欢迎?为什么有这么大的需求?数据实际上是一个非常传统的行业。在有软件开始的那一天起,数据这个行业就存在了。比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓库),然后数据挖掘,并且在数据这个行业里面是有非常多的巨头的,比如teradata、canis-biee、microstrategy等。然后数据这个行业不仅仅是软件,它还有管理的部分,也就是说数据治理,即如何让企业的数据治理的质量更好。所以数据这个
2020-07-31 09:07:07
1424
原创 Phoenix Java API配置及使用总结
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。#ZK方式0.需要把hbase-site.xml放到resource下面1. 可以配置到Spring项目中,比如下面数据源配置<bean id="phoenixDataSource" class="org.apache.common...
2020-07-30 08:48:32
1935
1
原创 Phoenix表映射
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。基础软件版本:Apache Hadoop:hadoop-2.8.5Apache HBase:hbase-1.4.10Apache Phoenix:phoenix-4.14.3-HBase-1.4-binPhoenix版本支持:Ph..
2020-07-28 21:11:59
505
原创 Phoenix视图映射
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数..
2020-07-22 09:40:39
638
转载 Kafka基础知识总结
1.Kafka分区复制和多数据中心架构2.Kafka压测Kafka官方自带压力测试脚本:(kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh)。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。3.Kafka的机器数量Kafka机器数量 = 2*(峰值生产速度 * 副本数 / 100)+14.Kafka的日志保存时间默认7天,可修改...
2020-07-07 07:51:55
984
转载 数据体系的四个层次:数据采集、数据计算、数据服务和数据应用
1.数据采集层客户端日志采集方案:Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上,不同的业务场景会有与之相适应的埋点规范,来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输:既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算。同步中心:同步工具DataX,直连异构数据库(备库)来抽取各种时间窗口(每天、每小时)的数据。2.数据计算层...
2020-07-07 07:44:28
18919
原创 Hadoop YARN:ApplicationMaster向ResourceManager注册AM源码调试
#0. 先看一下测试demo的运行流程a.创建一个YARN客户端YarnClient,并与ResourceManager建立连接b.通过YARN客户端创建一个应用并获取到应用提交上下文对象、设置相关的属性 特别是需要设置setAMContainerSpec, 防止后面getTokensConf时报空指针异常; 还需要设置setUnmanagedAM,不需要RM来管理AM(分配并启动Container),置为true之后就不再需要设置请求的资源大小了(UAM主要...
2020-07-01 00:27:57
767
原创 Hadoop YARN:ApplicationMaster与ResourceManager交互源码解析
ApplicationMaster<-->ResourceManager“通用”YARN应用涉及的角色及交互:RM:ResourceManagerAM:ApplicationMasterNM:NodeManager交互中用到的主要通信协议:ApplicationClientProtocolApplicationMasterProtocolContainerManagementProtocolClient<-->ResourceMa...
2020-06-25 17:01:24
494
原创 Java并发编程面试基础问题和答案
Java并发编程1.Synchronized用过吗,其原理是什么?这是一道Java面试中几乎百分百会问到的问题,因为没有任何写过并发程序的开发者会没听说或者没接触过Synchronized。Synchronized是由JVM实现的一种实现互斥同步的一种方式,如果你查看被Synchronized修饰过的程序块编译后的字节码,会发现,被Synchronized修饰过的程序块,在编译前后被编译器生成了monitorenter和monitorexit两个字节码指令。这两个指令是什么意思呢?在虚拟机执行到mo
2020-06-21 14:28:04
313
原创 Apache Hadoop YARN:Client客户端与ResourceManager源码DEBUG
本文将通过DEBUG的方式进行源码跟踪,探查YARN客户端与ResourceManager之间简单的交互过程,以yarnClient.getAllQueues()获取YARN集群所有队列信息为例进行演示。Hadoop版本3.2.1DEBUG环境:IntelliJ IDEA一、 测试用例这里直接调用YarnClient的静态方法createYarnClient()创建一个YarnClient实例new YarnClientImpl();。yarnClient.init(c.
2020-06-16 00:32:44
1167
原创 Apache Hadoop YARN:Client与ResourceManager交互源码解析
本文主要解析Client<-->ResourceManager之间接口(方法)调用过程(不涉及RPC细节)。“通用”YARN应用涉及的角色及交互:RM:ResourceManagerAM:ApplicationMasterNM:NodeManager交互中用到的主要通信协议:ApplicationClientProtocolApplicationMasterProtocolContainerManagementProtocol客户端程序与RM进行交..
2020-06-14 14:23:56
932
1
127页Java面试手册_2019-350-Java.pdf
2020-08-06
ELK+FileBeat+Kafka分布式系统搭建图文教程.pdf
2020-06-15
W3C_School在线帮助文档
2012-02-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人