- 博客(78)
- 资源 (7)
- 收藏
- 关注
原创 elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决
elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决
2022-08-08 11:48:48
1076
原创 hash join 原理简介-Rdbms Sql Join实现方式一
引申Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作join 连接,本质上是数据集的关联操作,不管是传统的rdbms 关系型数据库如oracle、mysql 还是现在大数据平台组件如hive 、spark sql都常用此连接逻辑而hash join 是实现join操作的重要方式之一,此外还有nested loop、sort merge join。很多文章都直接写原理,业务一笔带过,所
2021-03-08 16:57:41
1996
2
原创 Sql Join Corss Join 的根本性分类与关系代数
引申数据库中很多操作来自关系代数中的一些概念。例如常见的JOIN操作,下面是关系代数中的一些概念。https://en.wikipedia.org/wiki/Relational_algebraJOIN本身也分好多种比如EquiJoin , SemiJoin , AntiJoin , Cross Join,Division。这里的join 并不特指某个关系型数据库里的join关键词,而是泛指数据集的连接操作,具体到rdbms里面 会有 inner join(join) left join r
2021-03-05 16:57:24
620
1
原创 mysql入门-mysql5.7与oracle、hive等不同的小个性
前言日常编写sql语句时,经常需要用到日期 、字符串、数字格式等函数,例如 取当月第一天,取当日的上个月1号等等,这时往往会先拿个系统变量或者常量做一下测试。mysql hive postgresql 可以直接 select current_date 等系统内置变量或函数如:select CURRENT_DATE,CURRENT_DATE(),CURRENT_TIMESTAMP(),SUBDATE(CURRENT_DATE,INTERVAL 1 day),DATE_SUB(DATE_FOR
2021-03-05 16:33:49
270
1
原创 mongodb入门-mongod的坑
拉链表mongodbmongobooster1 日期格式 按日期范围统计时 时分秒需带上2 avg 函数 与其他大部分一样3 group by
2021-03-02 17:27:36
232
原创 mysql系统调优之thread_cache_size
背景Threads_created:创建过的线程数,如果发现Threads_created值过大的话,表明MySQL服务器一直在创建线程,这也是比较耗资源,可以适当增加配置文件中thread_cache_size值2、优化参数thread_cache_sizethread_cache_size:当客户端断开之后,服务器处理此客户的线程将会缓存起来以响应下一个客户而不是销毁(前提是缓存数未达上限)即可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存
2021-03-01 15:07:59
7626
原创 Hive Ha配置手把手详解-基于zookeeper配置cdh集群的HiveServer2负载均衡
1.1 修改代理token的存储实现类修改为org.apache.hadoop.hive.thrift.DBTokenStore1.2 增加HiveServer2 实例1.3 在配置中搜索到 hive-site.xml 的 HiveServer2 高级配置代码段(安全阀)配置如下两项<!--默认为false,配置为true HiveServer2会动态分配客户端--><property><name>hive.server2.support.dy
2021-03-01 11:08:53
2189
4
原创 Hive HA配置手把手详解-基于Haproxy配置cdh集群的HiveServer2负载均衡
背景需求hive 在离线分析,数仓中是最常用的工具,业务人员不需要熟悉mr,编程基础就可以通过sql操作数据。hive 的性能及稳定性在生产中必须保证。hive可以通过HAPROXY进行多节点负载均衡来达到目的。前提环境准备可用的基于cdh搭建的hadoop集群,并且Hdfs 、yarn、hive等安装完毕可用,cloudera manager可用进入hive服务配置,添加两个及以上的hive metastore和serveryum -y install ha...
2021-02-26 17:08:28
1728
2
原创 mysql系统调优之Aborted connection timeout/error reading communication packets 错误解决
背景近期客户的大数据任务调度应用系统出现问题,调度任务失败,任务没有正常执行,产品组同事去看应用日志也没发现错误日志.后来检查msql server日志发现有很多节点连接报 error reading communication 和time out reading错误解决1去检索了一下错误信息,大致都是以下: 网络问题,系统timeout参数问题,系统连接数问题于是首先用命令查看:一眼就看到11505这个数字,第一反应是怎么这么多连接,难怪有问题,又想了一下这..
2021-02-26 16:14:09
2545
转载 Zookeeper应用原理入门
转载自https://zhuanlan.zhihu.com/p/69114539?utm_source=wechat_session很多中间件,比如Kafka、Hadoop、HBase,都用到了 Zookeeper,于是很多人就会去了解这个 Zookeeper 到底是什么,为什么它在分布式系统里有着如此无可替代的地位。在踩了很多坑之后,我决定来回答下这个问题。其实学任何一项技术,首先都要弄明白,为什么需要这项技术。为什么需要 Zookeeper正经点来回答,就是我们需要一个用起来像单机但
2021-02-22 11:54:00
311
原创 spark submit 指定资源池-CDH Hadoop集群运维记录
spark-submit --master yarn --class com.bcht.application.FlowCountMinStreamingWenShan \--jars $SPARK_HOME/mysql-connector-java-8.0.20.jar --driver-memory 512M --driver-cores 1 --executor-memory 512M --executor-cores 1 --num-executors 1 \--queue root.us.
2021-02-19 14:55:39
619
原创 一种基于shell的实时流处理任务的监控重启程序-spark streaming job on yarn
#!/bin/bashrunning_app=`yarn application -list -appStates RUNNING 2>/dev/null | grep application_ |grep 5min | awk '{print $1}'`echo running_app=$running_appif [[ ! -n "$running_app" ]]; then echo "app is not running" spark-submit --...
2021-02-18 17:03:22
470
4
原创 CDH Hadoop集群运维记录-日常问题一
service cloudera-scm-agent restart 重启过一会再刷新看cm集群的状态若出现时钟偏差问题首先 service ntpd stop 手工更新一次 ntpdate –d nn1(一般是集群的nn1节点) service ntpd start 最后Service cloudera-scm-agent restart问题解决:...
2021-02-18 16:18:09
289
原创 一文搞懂mysql两大重要存储引擎innodb和myisam区别-业务优化实战mysql5.7
业务问题mysql5.7 版本,一个一百万数据表 a, 一个3千多的维表 a 一个两百多的维表补充表 b,业务逻辑如下:维表a和维表b关联 ,拿到在表a且不在表b的数据,结果记为b1 大表a和b1关联 ,且要筛选a表的数据时间区间在一年内 最后基于第二步结果 对大a表发现机构字段、b1表指标编号、违法行为为维度 做分组聚合 求违法数sql如下:select rpad(substr(fxjg,1,4),10,'0') fxjg,a.zbbh,a.zbmc,sum(wfnum) .
2021-01-28 15:58:18
228
原创 mongodb入门-关系型RDMS数据库对比及适用场景
引言 最近工作接触到了mongodb数据库,记录下个人对其的理解和使用情况。虽然mongodb 出来的时间已经不短,但是相对mysql mssql oracle 这样传统的关系型数据库来说还是比较年轻,接触其的程序员应该也很少,本文从仅作介绍用。名字看MongoDB疑似Humongous Database(网络资料看到)。中文意思就是巨大无比的数据库,顾名思义,MongoDB就是为处理...
2018-08-18 21:20:49
1687
2
原创 元数据管理系统解决方案及产品调研-数仓系列(一)
元数据管理系统产品选型分析 1 概述 需要给目前数据仓库适用一套元数据管理系统,目的 减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等 1.1 应用背景 目前数据仓库没有专业的元数据管理系统,部分业务模型使用excel文档维护,分散、协同性不好。没有权限管理 1.2 业务目的 减少人为的维护工作量、web页面协同工作(多人统一入口适用),为数据仓库长远高质量发...
2018-06-30 19:05:03
24901
1
原创 db2 -4229错误 sql执行及数据加工报错信息的坑们-db2开发系列(二)
原因用etl工具kettle 从mongdb抽取一张表数据到db2时,报错 错误日志 里面见-4229错误
2018-06-30 16:23:04
14977
原创 greenplum(六) 现场常见由业务导致的故障
1 应用侧发现执行调度时出现连接重置,需重新连接数据库的问题问题现象:问题代码:select c.bcyc_id,c.acyc_id,c.eparchy_code, c.city_code, 'E0_001_01', count(distinct c.user_id) , coalesce( (select coun...
2018-06-30 10:16:02
2755
原创 greenplum(五) greenplum开发笔记之建表规范
背景:某运营商经分分析系统 底层数据仓库; 离线分析系统 物理模型表 表多批量操作 批量插入、更新 ,truncate操作,全表分组分析等。1 非分区表 ,建表样例语句:--drop table dwctr.tc_term_xxx;create table dwctr.tc_term_xxx( acyc_id integer not null ...
2018-04-17 16:20:21
5000
转载 greenplum(四)greenplum 常用数据库管理语句,sql工具
原文地址:https://blog.csdn.net/you_xian/article/details/78549756在greenplum 使用过程中积累的一些常用查询语句,整理出来备忘。欢迎各位留言补充。都是SQL命令以及数据字典的使用。熟悉数据字典非常重要。三个重要的schema:pg_catalog,pg_toolkit,information_schema,其中information_s...
2018-04-17 14:13:33
2610
原创 greenplum(三) gp工具命令及工具函数语句,持续更新.....
1 命令行导入文本数据到表psql -d bass_gp -h 10.243.4.145 -p 5432 -U dwadm -c "\copy dwtmp.tmp_test(cellid) from /data/22.txt "bass_gp 是数据库名及database名10.243.4.145 ip地址 5432 是端口号dwadm 账号2
2018-02-01 21:53:26
4503
原创 linux 常用(三) ftp服务命令
ftp命令与通常的linux命令不太相同,所以自己记下。登陆方式:替换下面例子中 IP 或域名为你的服务器地址ftp ip例如:ftp domain.comftp 192.168.0.1ftp user@ftpdomain.com然后绝大多数的 FTP 服务器是使用密码保护的,因此这些 FTP 服务器会询问'username'和'password'.
2018-02-01 13:38:46
1009
原创 侠之大者,为厂接坑-苦逼的程序员们(代码里有鬼)
还是15年8月份保存的草稿。。。。。。。。。。说的是这样一群的苦逼的程序员们1 家庭环境一般;基本都是普通本科毕业 由于各种原因 没有读研 直接工作的。2 话少 、交际圈窄;除了 上班 加班 就是窝在自己出租房里3 脾气好、老好人;不懂得拒绝别人或者客户、领导 要求4 技术还过得去;能胜任自己的工作。 一些常驻客户现成的程序员们,从入职开始 一般都是接盘 刚
2018-01-31 22:24:57
445
转载 Greenplum 数据库 集群安装部署(生产环境) 所需硬件
Greenplum 数据库安装部署(生产环境)硬件配置:16 台 IBM X3650,节点配置:CPU 2 * 8core,内存 128GB,硬盘 16 * 900GB,万兆网卡。万兆交换机。安装需求:1台Master,1台Standby Master,14台Segment计算节点。安装步骤:Master节点安装创建GP安装配置文件并配置ssh互信关闭防火墙及开
2017-07-23 17:15:43
3785
1
转载 oracle ROW_NUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法(含lag lead用法)
oracle ROW_NUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法(含lag lead用法)
2016-11-22 11:06:28
987
转载 打杂之WEB前端(二) jQuery 操作DOM总结,DOM Html操作,DOM Css操作
jQuery操作DOM的总结分享,个人学习笔记!分享的总结不一定很详细,不会每个方法的用法及详细描述及说明,只是一个概述!
2016-10-10 22:12:26
451
转载 打杂之WEB前端(一) jQuery 操作DOM总结,DOM Core操作
jQuery操作DOM的总结分享,个人学习笔记!分享的总结不一定很详细,不会每个方法的用法及详细描述及说明,只是一个概述!
2016-05-23 10:50:17
803
原创 Myeclipse8.5 里复制粘贴(ctr c ctr v)卡的解决方法
重拾Java web开发之myeclipse8.5 里复制黏贴功能(ctr c ctr v)卡的解决方法
2015-10-17 20:31:57
3208
转载 BAT职级薪酬深度分析
BAT职级薪酬深度分析 转自 2015-08-19 拉勾网Lagou微信号 互联网圈有这么一句话:百度的技术,阿里的运营,腾讯的产品。那么代表互联网三座大山的BAT,内部人才体系有什么区别?薪酬福利在对应的级别又是如何?晋升是否会遭遇天花板?本文给你详细的解读转发自真格基金微信公众平台(微信公众号zhenfund) 百度:产品能力很全面 百度级别机构分为四条
2015-08-20 23:47:54
7053
jedis 2.8.jar
2017-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人