1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!
2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考
3、涵盖技术:mysql、hadoop、hive、Spark、Flink、Kudu、Impala等…
【数据倾斜篇】
1)hadoop中的数据倾斜表现:
-
有一个多几个Reduce卡住,卡在99.99%,一直不能结束。
-
各种container报错OOM
-
异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer
-
伴随着数据倾斜,会出现任务被kill等各种诡异的表现。
2)hive中数据倾斜
一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。
3)Spark中的数据倾斜
Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:
-
Executor l