计划式-CSDN博客

原创 logstash脚本抽取数据到es或kafka，上

logstash从oracle抽数据到kafkainput { jdbc { jdbc_driver_library =&gt; “ojdbc6-11.2.0.3.0.jar 插件的” jdbc_driver_class =&gt; “Java::oracle.jdbc.OracleDriver” ...

2018-08-31 15:31:50 2826 1

原创 spark从oracle读取数据写到hbase

package com.analysisimport java.sql.DriverManager import java.text.SimpleDateFormatimport org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org....

2018-08-29 11:31:01 1885 1

原创 elasticsearch 9200端口登录认证方案

elasticsearch 9200端口如果不实现登录认证，可能会出现数据被盗，数据丢失的风险。下面是如何对elasticsearch进行登录认证： . elasticsearch关于9200端口实现登录验证解决办法：在elasticsearch安装x-pack插件，在elasticsearch配置文件中添加： xpack.security.enabled: true http.c...

2018-07-23 14:29:46 19831 4

原创 elasticsearch慢查询监控优化策略

监控目标 1．在elasticsearch配置文件上添加慢查询日志和慢索引配置 2．使用kibana监测elasticsearch慢查询日志的生成，使用logstash抽取日志的方式，有慢查询日志生成，就以邮件告警的方式提醒。 3．使用zabbix分别监控集群的状态、CPU、进程数、磁盘读写性能、JVM使用。同时还要监控elasticsearch中分片的状态。达到某个临界值，就以...

2018-07-23 14:16:44 3541

原创 maven整合SSM搭建项目

Maven整合SSM搭建项目目录一、概要.21.1 Maven21.1.1 Maven的基本概念.21.1.2 Maven的核心概念.21.1.2 Maven的目标.51.1.3 Maven的常用命令.51.2 Spring61.2.2 Spring的特点与优点.81.3 Spring MVC101.3.1 SpringMV

2018-01-11 11:15:42 706

原创 oracle资源检查

一、查询执行最慢的sqlselect *from(selectsa.SQL_TEXT,sa.SQL_FULLTEXT,sa.EXECUTIONS"执行次数",round(sa.ELAPSED_TIME / 1000000, 2)“总执行时间”,round(sa.ELAPSED_TIME / 1000000 / sa.EXECUTIONS, 2)“平均执行时间”,sa.COMMAND_...

2020-01-15 10:29:49 281

原创常用的Linux shell命令

输出日志到log文件中nohup sh test.sh>history.log 2>&1 &

2019-07-09 17:09:51 292 1

原创 hbase 常用的shell 命令

hbase 查询通用shell命令(>=意思为包含，=意思是等于)1.按family（列族）查找，取回所有符合条件的“family”：scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:grc’)”}或者scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:g...

2019-07-04 15:30:05 749

原创 kylin cube 创建

1.1.1 新建一个项目1.1.1.1 由顶部菜单栏进入Query页面，然后点击左上角的加号按钮新建一个project。1.1.1.2 选择自己要定义的项目名1.1.1.3 创建成功后会出现成功的弹窗通过以上的步骤一个新的project创建成功。1.1.2 同步一张表1.1.2.1 选择自己新建的项目名1.1.2.2 导入需要的数据库表在这里运用到的是hive作为数据源...

2019-06-27 16:03:28 256

原创 azkaban安装配置和使用

Azkaban用户操作手册目录环境搭建 21.1 安装准备 21.1.1 环境准备 21.1.2下载镜像 21.1.3 编译tar包 31.1.4 拷贝压缩包到/opt目录上 31.1.5 解压缩 31.1.6 数据库安装 31.1.7 数据库配置(mysql) 31.2 solo模式搭建 41.2.1 修改配置参数 41.2.2 solo模式启动 41.3 集群...

2019-06-27 13:38:30 1669

原创 spark程序在集群和本地运行命令

1.先找maven projects，然后在项目的目录进行clean,然后在install。把打包上来的程序放到服务器上。然后在执行（在本地执行local）/usr/hdp/2.6.0.3-8/spark2/bin/spark-submit –master local –class cn.com.zoesoft.bigdata.ihr.brain.tool.tags.Hypertensio...

2019-06-11 15:17:12 939

原创 sh文件定时删除hbase表中的数据

1.先在系统中建一个txt文件；vi test.txt然后在test文件中添加要执行的hbase shell语句truncate testexit（hbase 命令执行后不会自动退出，所以执行exit 这个命令强制退出）2.新建一个.sh文件vi test.sh然后在.sh文件中写入hbase shell /root/test/test.txt（后面的地址要详细的文件地址）然后...

2019-06-11 15:10:29 1035 4

原创 sqoop抽取数据到hive上

sqoop在抽取数据到hive上的时候首先要建立hive内部表hive 启动命令：$HIVE_HOME/bin/hivehive 退出命令：quit;hive 创建hbase内部表：其中sehr是创建表时的表空间。create table sehr.outpatient(last_update_dtime string,org_code st...

2019-03-13 08:50:26 1465

原创 sqoop抽取数据到hbase上

jdbc:oracle:thin:@//192.168.3.94/xmhealthy 指的是数据库 jdbc连接的IP和数据库实例名username cmmi --password cmmi 指的是数据库的用户名和密码query " " 中间是oracle数据库查询语句where 1 = 1 因为抽取语句中有and出现而oracle查询语句没有where 条件存在的话就要写上 w...

2019-02-18 10:17:38 959

原创 hive创建hbase外部表

hive 启动命令：$HIVE_HOME/bin/hivehive 创建hbase外部表：ihr_pes为hive表名：CREATE EXTERNAL TABLE ihr_pes(id string comment “hbase rowkey”,identity_no string comment “身份证号”,org_code string comment “医院编号”,patie...

2019-02-12 11:15:05 4948

原创 elasticsearch常用查询语句

复制索引数据到另外一个索引中：POST _reindex{“source”: {“index”: “ihr-baseinfo”},“dest”: {“index”: “songmingqi-test”}}删除索引中全部数据：POST songmingqi-test/baseinfo/_delete_by_query?conflicts=proceed{“query”: {...

2019-01-03 09:42:32 801

原创 java读取Excel文件写入到elasticsearch

测试用例用了springboot 框架了spring-data-elasticsearch框架。有感兴趣的可以写一下实体类@JsonIgnoreProperties(ignoreUnknown = true)@Document(indexName = “test-smq”, type = “test”, refreshInterval = “1s”, createIndex = false)...

2018-12-21 10:23:34 3446 3

原创 Spark 读取elasticsearch数据

最近在搞大数据的时候，遇到一个案例。之前的一些数据是设置死的。现在要改成动态读取es上的数据，然后在进行处理，就写了这么一个读取elasticsearch索引数据的例子object SparkReadFromES {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("DecisionTre...

2018-12-18 11:01:32 3708

原创 hbase常用shell命令

hbase建表：create 'test:medication', {NAME=&amp;amp;amp;gt;'p'}其中test是表空间，hbase表名是medication，列族是p添加数据： put 'test:medication','2','p:ICD_CODE','B23'向hbase中添加数据，rowkey是2查询前几条数据：scan 'test:medication',{LIMIT=...

2018-11-02 09:13:59 263

原创 spark 连接flume传输数据

1，编写FlumePushWordCount运行程序，启动监听端口88662. cd /usr/share/flume,编写脚本其中，在/usr/data.txt是一个空文件写脚本data.sh然后先运行flume-ng agent -c conf -f conf/flumesparktest.conf -n agent -Dflume.root.logger=INFO,con...

2018-11-01 15:34:42 558

原创 spark从hbase中读取数据处理后写入hbase中

spark读取hbase中的数据，做数据处理后，利用插件写入到hbase中package cn.com.zoesoft.bigdata.ihr.brain.tool.infectiousimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org...

2018-10-29 11:16:20 1308 1

原创 Phoenix + SQuirreL基本使用操作hbase

Phoenix + SQuirreL基本使用概述Phoenix是对HBase的扩展。目标是使用SQL操作HBase，包括DDL、DML、DQL等,Phoenix不仅能够使用SQL语句操作HBase，而且支持Join等高级特性。SQuirreL是一个SQL客户端，类似于Navicat，但它支持的协议比Navicat多得多，而且可以提供驱动扩展，Phoenix为HBase提供了SQuirreL插...

2018-10-26 14:24:49 982

原创 Hadoop 集群安装

Hadoop集群安装概述集群cluster，将很多任务进程分布到多台计算机上；通过联合使用多台计算机的存储、计算能力完成更庞大的任务。为了实现无限量的存储和计算能力，在生产环境中必须使用集群来满足需求。总体步骤基本步骤安装JDK，配置JDK环境变量安装Hadoop，配置Hadoop环境变量，配置Hadoop组织并在集群中分发文件注意：如果使用克隆方案，克隆后需修改主机名及IP...

2018-10-08 17:04:19 179

原创 oracle 导出、导入DMP格式的文件

打开cmd，然后执行下面语句exp seh（用户名）/”“”Ipp@sscryp（密码）”“”@SMJK（实例名） file=C:\Users\Administrator\Desktop\daochu\sehr_xman_ehr_3 tables（导出的位置）=(sehr_xman_ehr_3（要导出的表名）) query=\”where xman_id in ()\”（括号内是条件）...

2018-09-17 10:04:29 223

原创 oracle 查询、删除重复数据

根据oracle数据库中的主键确定重复的数据有哪些select XMAN_ID, EVENT, CATALOG_CODE, SERIAL（主键字段名） from sehr_xman_ehr_2（表名）GROUP BY XMAN_ID, EVENT, CATALOG_CODE, SERIAL（主键字段名） having count(*)&amp;amp;gt;1;查询到有重复的数据就可以按照字段删...

2018-09-14 16:55:45 417

原创 spark SQL操作json数据

package hbaseimport org.apache.spark.sql.{SaveMode, SparkSession}/** * Created by songmingqi on 2018/9/4 * 数据类型 * {“name”:”Signal”,”age”:15} * {“name”:”May j Lee”,”age”:20} * {“name...

2018-09-05 11:29:09 922

原创 spark SQL简单的案例

package hbaseimport org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase...

2018-09-04 15:22:19 421

原创 kafka调优

利用多磁盘并发读写，保证每个磁盘连续读写的特性。具体配置上，是将不同磁盘的多个目录配置到broker的log.dirs，例如 log.dirs=/disk1/kafka-logs,/disk2/kafka-logs,/disk3/kafka-logs。 JVM参数配置：设置垃圾回收器。推荐使用最新的G1来代替CMS作为垃圾回收器。 Broker中的JVM参数设置如下： -Xms3...

2018-07-31 17:03:37 510 1

原创 MapReduce集群设置与开发环境配置

MapReduce集群设置与开发环境配置MapReduce集群概述 MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode；而MapReduce的进程名（可以通过JPS命令查看）是： ResourceManager：数据计算资源的总体

2018-01-12 11:36:33 1023

原创 eclipse安装Hadoop插件

Hadoop-eclipse插件第一部分释放Hadoop安装包将hadoop-2.7.4.tar.gz解压到特定位置，如E:\bigdata\hadoop-2.7.4 注意：里面不能再套hadoop文件夹安装Hadoop-Eclipse插件将Hadoop-Eclipse（hadoop-eclipse-plugin-2.7.3.jar）

2018-01-12 11:30:00 272 1

原创安装Hadoop生态圈是遇到的问题

yum配置不通：vi /etc/resolv.conf更改DNShadoop：hadoop的根目录下的logs文件夹下的以.log结尾的文件文件组成：hadoop-用户名-启动节点-主机名.log找到挂掉的节点名称和对应主机，打开日志找错namenode消失：查看日志，发现上面提示namenode的ID信息和datanode的ID信息不一致解决方案：1.找到

2018-01-04 15:39:54 369

Ambari部署大数据环境文档

基于Ambari部署大数据开发环境的文档，可以部署成单节点的，也可以配置多节点的，Ambari能刚好的监测集群运行的健康状态，

2018-07-16

zabbix监控es端口号邮件提醒配置

本文从设置sendmail脚本，到zabbix web端，配置报警媒介，web监测，设置新的触发器。对于新人来说，完全可以配置自己的一套

2018-06-28

spark自定义分区以及写了一个例子，对文件进行处理

用spark自定义了一个分区，并且写了一些数据！写了一个scala类，进行测试！里面备注详细，对于初学者来说是一个不错的例子！

2018-01-12

eclipse安装Hadoop插件

Hadoop在eclipse上面安装插件，以及对Hadoop jar包和hadoop-common jar包的安装，环境变量的配置

2018-01-12

scala API 操作hbase表

最近看了hbase的源码根据源码写了一些scala调动hbase表的API，话不多说直接上代码！Hadoop的版本是2.7.3，scala版本是2.1.1，hbase的版本是1.1.2 如果版本不同可以修改pom的依赖项，但要注意版本冲突。并且在scala，maven项目中，还有创建一个resources包（这个网上多的是）主要是放core-site,xml和hdfs-site.xml以及hbase-site.xml

2018-01-11

Hadoop扩容

Hadoop存储容量或计算能力不能满足日益增长的需求时，就需要扩容。扩容有两个方案： 1) 增加磁盘 2) 增加节点

2018-01-11

IDEA创建maven项目

idea创建maven项目的详解，还有需要删除配置文件，创建模板

2018-01-03

scala和spark的安装

scala和spark的安装和配置，以及启动spark，分发节点。

2018-01-03

Linux下Hbase和zookeeper的安装和部署

在Linux虚拟机下的Hadoop集群上配置和安装hbase和zookeeper，

2018-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人