大道独行之BIGDATA-CSDN博客

原创 Linux高级shell脚本

Linux之shell脚本编写

2023-08-07 01:07:45 3507 1

1.Flink双流Join总结:Join大体分类只有两种：Window Join和Interval Join。Window Join又可以根据Window的类型细分出3种： Tumbling Window Join Sliding Window Join Session Widnow Join Windows类型的join都是利用window的机制，先将数据缓存在Window State中，当窗口触发计算时，执行join操作； interval join也是利用state存储数据再.

2021-01-20 09:18:20 3045

原创 SQL万能模板之七步剖析--适合小白快速入门

SQL万能模板之七步剖析–适合小白快速入门SQL模板select 1 from 2 where 3 group by 4 having 5 order by 6 limit 71-决定了结果有哪些列：对数据源中数据列的过滤2-决定了查询数据的数据源是什么表、视图、join、子查询3-决定了对数据源中数据行的过滤：分组前的行的过滤4-决定了按照哪一列的值进行分组：一般都会搭配聚合函数在group by语句中，1位置中的列要么是分组的字段，要是是聚合函数的结果5-决定了对分

2020-12-02 11:36:11 3040 3

原创 Hadoop运行机制理解心得

Hadoop运行机制理解心得Shuffle过程Map端ShuffleSpill：将MapTask处理好的数据写入磁盘所有MapTask的数据会先进行分区标记所有标记完成的数据会被写入一个环形缓冲区【内存：100M】当缓冲区达到存储阈值80%，这部分就被锁定，准备溢写对着80%中的K2V2进行排序：相同分区的数据放在一起内存：快排将这部分数据写入磁盘变成小文件最终每个MapTask会产生很多个有序的小文件Merge：将每个MapTask对应的所有小文件进行合并成一个

2020-12-02 11:01:17 1528

原创分布式如何进行解决大数据的存储与计算问题个人理解

分布式如何进行解决大数据的存储与计算问题个人理解分布式：如何解决大量数据的计算和存储问题的？问题1：为什么不用MySQL存储和分析计算？数据量大，MySQL存储不了即使能存储，处理的性能也很差数据的价值会随着时间的流逝而逐渐降低离线架构：以一定时间为单位处理数据今天处理昨天的数据，时效性比较慢【分钟及以上级别】实时架构：以数据生成为单位处理数据数据产生一条处理一条，时效性比较高【ms级别】数据种类的多样化问题2：如何解决数据大无法存储或者计算的问题？

2020-12-02 10:53:45 1917

原创 hive优化基础1

1.hive优化基础1开启分桶 set hive.enforce.bucketing=true;设置reduce个数 set mapreduce.job.reduces=3;hive表 ->orc和parquet -->ZLIB或snappy Parquet是面向分析型业务的列式存储格式fetch抓取: 在全局找、字段查找、limit查找等都不走mapreduce. set hive.fetch.task.conversion=more;默认为 none.本地模式 :a.

2020-12-02 10:38:39 2072

分布式如何进行解决大数据的存储与计算问题个人理解.md

分布式的定义, 分布式是怎样解决大量数据的存储和计算问题的, 分布式的通用架构以及通用架构存在的问题,存在问题如何解决的等等

2020-12-02

多线程基础总结.xmind

多线程基础理论, 多线程中常用API,多线程的实现方式, 线程池以及创建线程池相关API, 常见的设计模式等内容

2020-12-02

机械设计控制部分原理图

课程设计机械设计控制部分原理图，机械相关专业大学期间必做课设，此原理图可以给学生一个指引方向，以便顺利完成课设。

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mitao666的博客

原创 Linux高级shell脚本

原创 2021-01-18

原创 SQL万能模板之七步剖析--适合小白快速入门

原创 Hadoop运行机制理解心得

原创分布式如何进行解决大数据的存储与计算问题个人理解

原创 hive优化基础1

分布式如何进行解决大数据的存储与计算问题个人理解.md

多线程基础总结.xmind

机械设计控制部分原理图

空空如也

原创 Linux高级shell脚本

原创 2021-01-18

原创 SQL万能模板之七步剖析--适合小白快速入门

原创 Hadoop运行机制理解心得

原创 分布式如何进行解决大数据的存储与计算问题个人理解

原创 hive优化基础1

分布式如何进行解决大数据的存储与计算问题个人理解.md

多线程基础总结.xmind

机械设计控制部分原理图

空空如也

原创分布式如何进行解决大数据的存储与计算问题个人理解