- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 2021-01-18
1.Flink双流Join总结:Join大体分类只有两种:Window Join和Interval Join。Window Join又可以根据Window的类型细分出3种: Tumbling Window Join Sliding Window Join Session Widnow Join Windows类型的join都是利用window的机制,先将数据缓存在Window State中,当窗口触发计算时,执行join操作; interval join也是利用state存储数据再.
2021-01-20 09:18:20
3045
原创 SQL万能模板之七步剖析--适合小白快速入门
SQL万能模板之七步剖析–适合小白快速入门SQL模板select 1 from 2 where 3 group by 4 having 5 order by 6 limit 71-决定了结果有哪些列:对数据源中数据列的过滤2-决定了查询数据的数据源是什么表、视图、join、子查询3-决定了对数据源中数据行的过滤:分组前的行的过滤4-决定了按照哪一列的值进行分组:一般都会搭配聚合函数在group by语句中,1位置中的列要么是分组的字段,要是是聚合函数的结果5-决定了对分
2020-12-02 11:36:11
3040
3
原创 Hadoop运行机制理解心得
Hadoop运行机制理解心得Shuffle过程Map端ShuffleSpill:将MapTask处理好的数据写入磁盘所有MapTask的数据会先进行分区标记所有标记完成的数据会被写入一个环形缓冲区【内存:100M】当缓冲区达到存储阈值80%,这部分就被锁定,准备溢写对着80%中的K2V2进行排序:相同分区的数据放在一起内存:快排将这部分数据写入磁盘变成小文件最终每个MapTask会产生很多个有序的小文件Merge:将每个MapTask对应的所有小文件进行合并成一个
2020-12-02 11:01:17
1528
原创 分布式如何进行解决大数据的存储与计算问题个人理解
分布式如何进行解决大数据的存储与计算问题个人理解分布式:如何解决大量数据的计算和存储问题的?问题1:为什么不用MySQL存储和分析计算?数据量大,MySQL存储不了即使能存储,处理的性能也很差数据的价值会随着时间的流逝而逐渐降低离线架构:以一定时间为单位处理数据今天处理昨天的数据,时效性比较慢【分钟及以上级别】实时架构:以数据生成为单位处理数据数据产生一条处理一条,时效性比较高【ms级别】数据种类的多样化问题2:如何解决数据大无法存储或者计算的问题?
2020-12-02 10:53:45
1917
原创 hive优化基础1
1.hive优化基础1开启分桶 set hive.enforce.bucketing=true;设置reduce个数 set mapreduce.job.reduces=3;hive表 ->orc和parquet -->ZLIB或snappy Parquet是面向分析型业务的列式存储格式fetch抓取: 在全局找、字段查找、limit查找等都不走mapreduce. set hive.fetch.task.conversion=more;默认为 none.本地模式 :a.
2020-12-02 10:38:39
2072
分布式如何进行解决大数据的存储与计算问题个人理解.md
2020-12-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人