
案例
晟翊zzZ
这个作者很懒,什么都没留下…
展开
-
Flink(二)
Flink集群搭建Flink可以选择的部署方式有:Local、Standalone(资源利用率低)、Yarn、Mesos、Docker、Kubernetes、AWS。Standalone模式安装软件要求Java 1.8.x或更高版本ssh(必须运行sshd才能使用管理远程组件的Flink脚本)集群部署规划节点名称masterworkerzookeeper...原创 2019-12-29 22:00:24 · 284 阅读 · 0 评论 -
Bigdata_内存数据库
MemCached缓存技术什么是MemCachedMemcache是一套开源,高性能的分布式的内存对象缓存系统,目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著 。Memcache将所有数据存储在内存中,并在内存里维护一个统一的巨大的Hash表,它能存储任意类型的数据,包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调...原创 2019-12-17 21:26:45 · 800 阅读 · 0 评论 -
Kafka(二)
Kafka工作流程分析写入方式producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。分区(Partition)Kafka集群有多个消息代理服务器(broker-server)组成,发布到Kafka集群的每条消息都有一个类别,用主题(topic)来表...原创 2019-12-15 21:43:54 · 226 阅读 · 0 评论 -
Bigdata_Elasticsearch
概述什么是搜索百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象)。百度 != 搜索1)互联网的搜索:电商网站,招聘网站,新闻网站,各种app2)IT系统的搜索:OA软件,办公自动化软件,会议管理,日程管理,项目管理。搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要...原创 2019-11-26 22:58:44 · 519 阅读 · 0 评论 -
大数据之Spark Streaming(二)
输入DStreams和接收器输入DStreams表示从数据源获取输入数据流的DStreams。在NetworkWordCount例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。输入DStreams表示从数据源获取的原始数据流。Spark ...原创 2019-11-24 20:26:43 · 241 阅读 · 0 评论 -
大数据之Spark Streaming
Spark Streaming简介Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还...原创 2019-11-21 17:53:31 · 188 阅读 · 0 评论 -
SparkSQL案例
import java.text.SimpleDateFormatimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSession/** * @Autho: Administrator and wind * @Version: 2019/11/19 & 1.0 * * Spark...原创 2019-11-20 20:42:24 · 365 阅读 · 0 评论 -
大数据之Spark(三)
Spark SQL基础Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Spark SQL的特点:容易整合(集成)统一的数据访问方式兼容Hive标准的数据连接基本概念:Datasets和DataFramesDataFrameDataFrame是组织成命...原创 2019-11-17 23:07:15 · 253 阅读 · 0 评论 -
Spark基础编程案例
Spark基础编程案例案例一:求网站的访问量求出访问量最高的两个网页要求显示:网页名称、访问量原创 2019-11-13 22:20:25 · 381 阅读 · 1 评论 -
大数据之Spark(二)
Spark的算子RDD基础什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RD...原创 2019-11-11 21:00:26 · 256 阅读 · 0 评论 -
Scala(五)
Scala中的集合1、可变集合和不可变集合可变集合不可变集合:集合从不改变,因此可以安全地共享其引用。甚至是在一个多线程的应用程序当中也没问题。集合的操作:2、列表不可变列表(List)可变列表(LinkedList):scala.collection.mutable3、序列常用的序列有:Vector和RangeVector是ArrayBuffer的不可...原创 2019-11-07 22:39:30 · 199 阅读 · 0 评论 -
Java与Scala快排
快排Java快排public class QuitSortJava { /** * * 基准 * 左右哨兵 *数组进行基准分区 * 递归 */ public static void sort(int[] arr, int start, int end){ //判断递归停止条件,右边哨兵小于等于左边哨兵...原创 2019-11-05 20:58:36 · 206 阅读 · 0 评论 -
Scala(四)
Scala中的trait(特质)trait就是抽象类。trait跟抽象类最大的区别:trait支持多重继承trait Human{ //定义抽象字段 val id : Int val name : String}trait Action{ //定义一个抽象函数 def getActionName() : String} //定义子类class Student...原创 2019-11-05 15:32:08 · 158 阅读 · 0 评论 -
Scala(三)
映射映射就是Map集合,由一个(key,value)组成。-> 操作符用来创建例如:val scores = Map(“Alice” -> 10,”Bob” -> 3,”Cindy” -> 8)映射的类型分为:不可变Map和可变Map映射的操作获取映射中的值更新映射中的值(必须是可变Map)迭代映射举例: 创建一个Map来保存学生的成绩 ...原创 2019-11-03 17:31:45 · 328 阅读 · 0 评论 -
Scala(二)
Scala函数的参数Scala中,有两种函数参数的求值策略Call By Value:对函数实参求值,且仅求一次Call By Name:函数实参每次在函数体内被用到时都会求值我们来分析一下,上面两个调用执行的过程:一份复杂一点的例子:Scala中的函数参数默认参数代名参数可变参数 (1)默认参数 当你没有给参数赋值的时候,就使用默认值 scala>...原创 2019-10-29 18:50:37 · 271 阅读 · 0 评论 -
运营日志项目分析
日志分析数据情况每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量指标KPI1.浏览PV(1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。 (2)分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是,每个栏目...原创 2019-10-25 09:58:59 · 838 阅读 · 0 评论 -
大数据之HBase_MR
官方HBase-MapReduce查看HBase的MapReduce任务的所需的依赖bin/hbase mapredcp执行环境变量的导入$ export HBASE_HOME=/opt/module/hbase-1.3.1$ export HADOOP_CLASSPATH = ``${HBASE_HOME}/bin/hbase mapredcp `运行官方的MapReduce任务–...原创 2019-10-14 16:24:38 · 349 阅读 · 0 评论 -
大数据之HBase_Util
HBase_Util初始化命名空间/** * @author wind * 1、NameSpace ====> 命名空间 * 2、isTable ====> 判断表是否存在 * 3、Region、RowKey、分区键 * 4、createTable ===> 表 */public class HBaseUtil { /** * 初始化...原创 2019-10-12 21:47:44 · 269 阅读 · 0 评论 -
Flume 常用拦截器
Flume 拦截器时间戳拦截器flume-timestamp.conf#1.定义agent名, source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#2.具体定义sourcea4.sources.r1.type = spooldira4.sources.r1.spoolDir = /opt/wind...原创 2019-09-09 22:34:58 · 853 阅读 · 0 评论 -
分区和DML操作
分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。案例实操分别创建部门和员工外部表,并向表中导入数据。(1)原始数据(2)建表语句创建部门表create external t...原创 2019-09-13 18:53:15 · 242 阅读 · 0 评论 -
Hive分桶 、Hive自定义函数、Hive压缩、Hive、存储格式
分桶及抽样查询分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。先创建分桶表,通过直接导入数据文件的方式(1)创建分桶表create table stu_buck1(id int, n...原创 2019-09-18 21:00:48 · 210 阅读 · 0 评论 -
大数据之Hive 调优
Hive调优抓取 FetchFetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...原创 2019-09-20 20:11:19 · 204 阅读 · 0 评论 -
Azkaban 案例
多job工作流案例创建有依赖关系的多个job描述第一个job:1.job[root@bigdata111 jobs]$ vi 1.jobtype=commandcommand=/opt/module/hadoop-2.8.4/bin/hadoop fs -put /opt/module/datas/word.txt /第二个job:2.job依赖1.job[root@bigdata1...原创 2019-09-27 13:55:46 · 125 阅读 · 0 评论 -
大数据之HBaseAPI
编写HBaseAPI判断表是否存在public class HBASE_API { private static Configuration conf; static{ //使用HbaseConfiguration的单例方法实例化 conf = HBaseConfiguration.create(); /** ...原创 2019-10-11 17:47:35 · 123 阅读 · 0 评论 -
Flume 扇入(fanin)扇出(fanout)案例
案例三、Flume 与 Flume 之间数据传递,多 Flume 汇总数据到单 Flume。目标:flume-fanin-1监控某一个端口的数据流,flume-fanin-2 监控文件,flume-fanin-1 和 flume-fanin-2 将数据发送给 flume-fanin-3,flume-fanin-3 将最终数据写入到HDFS。分步实现1.创建 flume-fanin-1.co...原创 2019-09-08 13:33:42 · 1587 阅读 · 0 评论