- 博客(31)
- 资源 (9)
- 收藏
- 关注

原创 logstash脚本抽取数据到es或kafka,上
logstash从oracle抽数据到kafkainput { jdbc { jdbc_driver_library => “ojdbc6-11.2.0.3.0.jar 插件的” jdbc_driver_class => “Java::oracle.jdbc.OracleDriver” ...
2018-08-31 15:31:50
2826
1

原创 spark从oracle读取数据写到hbase
package com.analysisimport java.sql.DriverManager import java.text.SimpleDateFormatimport org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org....
2018-08-29 11:31:01
1885
1

原创 elasticsearch 9200端口登录认证方案
elasticsearch 9200端口如果不实现登录认证,可能会出现数据被盗,数据丢失的风险。下面是如何对elasticsearch进行登录认证: . elasticsearch关于9200端口实现登录验证 解决办法:在elasticsearch安装x-pack插件,在elasticsearch配置文件中添加 : xpack.security.enabled: true http.c...
2018-07-23 14:29:46
19831
4

原创 elasticsearch慢查询监控优化策略
监控目标 1. 在elasticsearch配置文件上添加慢查询日志和慢索引配置 2. 使用kibana监测elasticsearch慢查询日志的生成,使用logstash抽取日志的方式,有慢查询日志生成,就以邮件告警的方式提醒。 3. 使用zabbix分别监控集群的状态、CPU、进程数、磁盘读写性能、JVM使用。同时还要监控elasticsearch中分片的状态。达到某个临界值,就以...
2018-07-23 14:16:44
3541

原创 maven整合SSM搭建项目
Maven整合SSM搭建项目目录一、概要.21.1 Maven21.1.1 Maven的基本概念.21.1.2 Maven的核心概念.21.1.2 Maven的目标.51.1.3 Maven的常用命令.51.2 Spring61.2.2 Spring的特点与优点.81.3 Spring MVC101.3.1 SpringMV
2018-01-11 11:15:42
706
原创 oracle资源检查
一、查询执行最慢的sqlselect *from(selectsa.SQL_TEXT,sa.SQL_FULLTEXT,sa.EXECUTIONS"执行次数",round(sa.ELAPSED_TIME / 1000000, 2)“总执行时间”,round(sa.ELAPSED_TIME / 1000000 / sa.EXECUTIONS, 2)“平均执行时间”,sa.COMMAND_...
2020-01-15 10:29:49
281
原创 hbase 常用的shell 命令
hbase 查询通用shell命令(>=意思为包含,=意思是等于)1.按family(列族)查找,取回所有符合条件的“family”:scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:grc’)”}或者scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:g...
2019-07-04 15:30:05
749
原创 kylin cube 创建
1.1.1 新建一个项目1.1.1.1 由顶部菜单栏进入Query页面,然后点击左上角的加号按钮新建一个project。1.1.1.2 选择自己要定义的项目名1.1.1.3 创建成功后会出现成功的弹窗通过以上的步骤一个新的project创建成功。1.1.2 同步一张表1.1.2.1 选择自己新建的项目名1.1.2.2 导入需要的数据库表在这里运用到的是hive作为数据源...
2019-06-27 16:03:28
256
原创 azkaban安装配置和使用
Azkaban用户操作手册目录环境搭建 21.1 安装准备 21.1.1 环境准备 21.1.2下载镜像 21.1.3 编译tar包 31.1.4 拷贝压缩包到/opt目录上 31.1.5 解压缩 31.1.6 数据库安装 31.1.7 数据库配置(mysql) 31.2 solo模式搭建 41.2.1 修改配置参数 41.2.2 solo模式启动 41.3 集群...
2019-06-27 13:38:30
1669
原创 spark程序在集群和本地运行命令
1.先找maven projects,然后在项目的目录进行clean,然后在install。把打包上来的程序放到服务器上。然后在执行(在本地执行local)/usr/hdp/2.6.0.3-8/spark2/bin/spark-submit –master local –class cn.com.zoesoft.bigdata.ihr.brain.tool.tags.Hypertensio...
2019-06-11 15:17:12
939
原创 sh文件定时删除hbase表中的数据
1.先在系统中建一个txt文件;vi test.txt然后在test文件中添加要执行的hbase shell语句truncate testexit(hbase 命令执行后不会自动退出,所以执行exit 这个命令强制退出)2.新建一个.sh文件vi test.sh然后在.sh文件中写入hbase shell /root/test/test.txt(后面的地址要详细的文件地址)然后...
2019-06-11 15:10:29
1035
4
原创 sqoop抽取数据到hive上
sqoop在抽取数据到hive上的时候首先要建立hive内部表hive 启动命令:$HIVE_HOME/bin/hivehive 退出命令:quit;hive 创建hbase内部表:其中sehr是创建表时的表空间。create table sehr.outpatient(last_update_dtime string,org_code st...
2019-03-13 08:50:26
1465
原创 sqoop抽取数据到hbase上
jdbc:oracle:thin:@//192.168.3.94/xmhealthy 指的是数据库 jdbc连接的IP和数据库实例名username cmmi --password cmmi 指的是数据库的用户名和密码query " " 中间是oracle数据库查询语句where 1 = 1 因为抽取语句中有and出现 而oracle查询语句 没有where 条件存在的话就要写上 w...
2019-02-18 10:17:38
959
原创 hive创建hbase外部表
hive 启动命令:$HIVE_HOME/bin/hivehive 创建hbase外部表:ihr_pes为hive表名:CREATE EXTERNAL TABLE ihr_pes(id string comment “hbase rowkey”,identity_no string comment “身份证号”,org_code string comment “医院编号”,patie...
2019-02-12 11:15:05
4948
原创 elasticsearch常用查询语句
复制索引数据到另外一个索引中:POST _reindex{“source”: {“index”: “ihr-baseinfo”},“dest”: {“index”: “songmingqi-test”}}删除索引中全部数据:POST songmingqi-test/baseinfo/_delete_by_query?conflicts=proceed{“query”: {...
2019-01-03 09:42:32
801
原创 java读取Excel文件写入到elasticsearch
测试用例用了springboot 框架了spring-data-elasticsearch框架。有感兴趣的可以写一下实体类@JsonIgnoreProperties(ignoreUnknown = true)@Document(indexName = “test-smq”, type = “test”, refreshInterval = “1s”, createIndex = false)...
2018-12-21 10:23:34
3446
3
原创 Spark 读取elasticsearch数据
最近在搞大数据的时候,遇到一个案例。之前的一些数据是设置死的。现在要改成动态读取es上的数据,然后在进行处理,就写了这么一个读取elasticsearch索引数据的例子object SparkReadFromES {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("DecisionTre...
2018-12-18 11:01:32
3708
原创 hbase常用shell命令
hbase建表:create 'test:medication', {NAME=&amp;amp;amp;gt;'p'}其中test是表空间,hbase表名是medication,列族是p添加数据: put 'test:medication','2','p:ICD_CODE','B23'向hbase中添加数据,rowkey是2查询前几条数据:scan 'test:medication',{LIMIT=...
2018-11-02 09:13:59
263
原创 spark 连接flume传输数据
1,编写FlumePushWordCount运行程序,启动监听端口88662. cd /usr/share/flume,编写脚本其中,在/usr/data.txt是一个空文件写脚本data.sh然后先运行flume-ng agent -c conf -f conf/flumesparktest.conf -n agent -Dflume.root.logger=INFO,con...
2018-11-01 15:34:42
558
原创 spark从hbase中读取数据处理后写入hbase中
spark读取hbase中的数据,做数据处理后,利用插件写入到hbase中package cn.com.zoesoft.bigdata.ihr.brain.tool.infectiousimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org...
2018-10-29 11:16:20
1308
1
原创 Phoenix + SQuirreL基本使用操作hbase
Phoenix + SQuirreL基本使用概述Phoenix是对HBase的扩展。目标是使用SQL操作HBase,包括DDL、DML、DQL等,Phoenix不仅能够使用SQL语句操作HBase,而且支持Join等高级特性。SQuirreL是一个SQL客户端,类似于Navicat,但它支持的协议比Navicat多得多,而且可以提供驱动扩展,Phoenix为HBase提供了SQuirreL插...
2018-10-26 14:24:49
982
原创 Hadoop 集群安装
Hadoop集群安装概述集群cluster,将很多任务进程分布到多台计算机上;通过联合使用多台计算机的存储、计算能力完成更庞大的任务。为了实现无限量的存储和计算能力,在生产环境中必须使用集群来满足需求。总体步骤基本步骤安装JDK,配置JDK环境变量安装Hadoop,配置Hadoop环境变量,配置Hadoop组织并在集群中分发文件注意:如果使用克隆方案,克隆后需修改主机名及IP...
2018-10-08 17:04:19
179
原创 oracle 导出、导入DMP格式的文件
打开cmd,然后执行下面语句exp seh(用户名)/”“”Ipp@sscryp(密码)”“”@SMJK(实例名) file=C:\Users\Administrator\Desktop\daochu\sehr_xman_ehr_3 tables(导出的位置)=(sehr_xman_ehr_3(要导出的表名)) query=\”where xman_id in ()\”(括号内是条件)...
2018-09-17 10:04:29
223
原创 oracle 查询、删除重复数据
根据oracle数据库中的主键确定重复的数据有哪些select XMAN_ID, EVENT, CATALOG_CODE, SERIAL(主键字段名) from sehr_xman_ehr_2(表名)GROUP BY XMAN_ID, EVENT, CATALOG_CODE, SERIAL(主键字段名) having count(*)&amp;amp;gt;1;查询到有重复的数据就可以按照字段删...
2018-09-14 16:55:45
417
原创 spark SQL操作json数据
package hbaseimport org.apache.spark.sql.{SaveMode, SparkSession}/** * Created by songmingqi on 2018/9/4 * 数据类型 * {“name”:”Signal”,”age”:15} * {“name”:”May j Lee”,”age”:20} * {“name...
2018-09-05 11:29:09
922
原创 spark SQL简单的案例
package hbaseimport org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase...
2018-09-04 15:22:19
421
原创 kafka调优
利用多磁盘并发读写,保证每个磁盘连续读写的特性。 具体配置上,是将不同磁盘的多个目录配置到broker的log.dirs,例如 log.dirs=/disk1/kafka-logs,/disk2/kafka-logs,/disk3/kafka-logs。 JVM参数配置: 设置垃圾回收器。推荐使用最新的G1来代替CMS作为垃圾回收器。 Broker中的JVM参数设置如下: -Xms3...
2018-07-31 17:03:37
510
1
原创 MapReduce集群设置与开发环境配置
MapReduce集群设置与开发环境配置MapReduce集群概述 MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode;而MapReduce的进程名(可以通过JPS命令查看)是: ResourceManager:数据计算资源的总体
2018-01-12 11:36:33
1023
原创 eclipse安装Hadoop插件
Hadoop-eclipse插件第一部分释放Hadoop安装包 将hadoop-2.7.4.tar.gz解压到特定位置,如E:\bigdata\hadoop-2.7.4 注意:里面不能再套hadoop文件夹安装Hadoop-Eclipse插件 将Hadoop-Eclipse(hadoop-eclipse-plugin-2.7.3.jar)
2018-01-12 11:30:00
272
1
原创 安装Hadoop生态圈是遇到的问题
yum配置不通:vi /etc/resolv.conf更改DNShadoop:hadoop的根目录下的logs文件夹下的以.log结尾的文件文件组成:hadoop-用户名-启动节点-主机名.log找到挂掉的节点名称和对应主机,打开日志找错namenode消失:查看日志,发现上面提示namenode的ID信息和datanode的ID信息不一致解决方案:1.找到
2018-01-04 15:39:54
369
spark自定义分区以及写了一个例子,对文件进行处理
2018-01-12
scala API 操作hbase表
2018-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人