
大数据技术
get it now
有志者事竟成
展开
-
druid查询源码追踪
待整理和完善。。。 org.apache.druid.cli.Main --> CliBroker getModules()–> BrokerQueryResource.getQueryTargets() –> 1.List ServerViewUtil.getTargetLocations(BrokerServerView,datasource,interval,…) 获取segmentLocation, 2.ResourceIOReaderWriter.ok()读取segment原创 2020-12-09 16:45:11 · 614 阅读 · 0 评论 -
druid kafka摄取任务预聚合逻辑源码追踪
1.梳理druid预聚合逻辑 摄取预聚合主逻辑: KafkaRecordSupplier.poll() --> IncrementalPublishingKafkaIndexTaskRunner.getRecords() --> SeekableStreamIndexTaskRunner.getRecords() --> StreamAppenderatorDriver.add(record) --> BaseAppenderatorDriver.append() --> ..原创 2020-12-09 16:40:06 · 549 阅读 · 0 评论 -
hadoop3.1.3集群搭建(ha+yarn)
当前环境: centos6.5,jdk8 准备工作: 1.服务器之间免密登录 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys 2.服务器之间时间同步 3.安装zook...原创 2020-02-15 19:05:07 · 1887 阅读 · 0 评论 -
大数据之HDFS读写流程(文件上传与下载)
今天来谈谈hdfs的读写流程: HDFS上传文件步骤(写流程) 流程: 1. 调用客户端的对象DistributedFileSystem的create方法; 2. DistributedFileSystem会发起对namenode的一个RPC连接,请求创建一个文件,不包含关于block块的请求。namenode会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限。如果...原创 2019-04-11 20:19:55 · 1793 阅读 · 1 评论 -
大数据之mapreduce作业在Yarn上提交流程
提交作业流程图: 各自任务: 1、客户端,提交MapReduce作业 2、YARN的资源管理器(Resource Manager),协调集群中计算资源的分配 3、YARN的节点管理器(Node Manager),启动并监控集群中的计算容器 4、MapReduce的Application Master,协调MapReduce作业中任务的运行。Application Master和Map...原创 2019-04-17 22:36:04 · 1911 阅读 · 0 评论