
大数据
大数据
编程者说
这个作者很懒,什么都没留下…
展开
-
大数据集群巡检,最佳实践记录
公司使用的大数据集群是Cloudera,定期巡检,还是查出不少问题,后面进行优化。mark下供大家参考。发现主要的几个问题如下, 1. HDFS 小文件过多 小文件问题是目前HDFS上存在的最大问题。可以使用hadoop fs -count命令,简单统计下文件数量较多的目录。 小文件很多是临时文件,建议定期清理。并检查业务逻辑,主要是什么导致的小文件过多,看能否通过修改处理逻辑来避免。 2. DNS域名解析不全 很多新加的边缘节点,没有配置全部的host,导致集群内部解析不全。虽不影响程序运行,但原创 2021-03-29 17:56:30 · 991 阅读 · 0 评论 -
Flink 连接 MySQL 错误:The server time zone value ‘Öйú±ê׼ʱ¼ä‘ is unrecognized or represents
Flink 处理好数据后,需要 Sink 到 MySQL 保存,连接的时候报错。 1. 错误描述 Caused by: com.mysql.cj.exceptions.InvalidConnectionAttributeException: The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more than one time zone. You must configure either the serve原创 2021-03-17 09:09:45 · 972 阅读 · 0 评论 -
Flink SQL 项目通用模板一
总结项目中的常用 flink sql 开发模板,供大家参考。 主要分三大步: 创建表执行环境。 创建输入表、输出表,并进行数据的逻辑处理。 任务执行。 其中第二部是重点,细分三小步(也就是三个 tabEnv.executeSql) tableEnv.executeSql(inputTableDDL) // 1) create inputTable tableEnv.executeSql(outputTableDDL) // 2) create outputTable tableEnv.exec原创 2021-03-15 11:17:50 · 725 阅读 · 0 评论 -
Flink SQL 开发的代码结构
最近一直都在搞 Flink 相关的开发,清晰的代码结构有利于开发规范的统一和业务逻辑的梳理。 Scala 代码结构,官网推荐的如下, // create a TableEnvironment for specific planner batch or streaming val tableEnv = ... // see "Create a TableEnvironment" section // create an input Table tableEnv.executeSql("CREATE T原创 2021-03-05 11:23:44 · 409 阅读 · 1 评论 -
Flink 使用 Scala 编程中注意的隐式转换
写代码过程中,IDE 的代码提示功能是程序员的最爱,但是在用 Scala 写 Flink 代码的过程中,经常会有不提示的情况。 蛋疼。。。 这个就是 Scala 的引入包的问题,常用的用下面这几个,mark 下, import org.apache.flink.streaming.api.scala._ import org.apache.flink.table.api._ import org.apache.flink.table.api.bridge.scala._ 注意后面的下划线,就是整包原创 2021-03-04 16:22:46 · 878 阅读 · 1 评论 -
HiveSQL和普通SQL的区别
HiveSQL和普通SQL的区别 总结如下, HiveSQL对分号识别不是很智能,只要出现分号就认为是语句结尾。 HiveSQL不支持等值连接,即不支持where a.id = b.id的连接方式,HiveSQL使用join连接。 HiveSQL中没有not null,当字段为null时,使用Empty空值代替。即长度为0, 那么对它进行IS NULL的判断结果是False。 HiveSQL不支持将数据插入现有的表或分区,仅支持覆盖重写整张表。即不支持insert into,而需要使用insert原创 2020-11-19 09:30:48 · 4690 阅读 · 0 评论