自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 HBase

Hbase 基础知识一、数据模型Name Space 命名空间,类似于关系型数据库database的概念,每一个命名空间下面有多个表。 Hbase有两个自带的命名空间,分别是hbase 和 default,hbase 中存放的是Hbase的内置表;default是用户默认使用的命名空间。Table Table 类似于关系型数据库表的概念。与关系型数据库中的表不同的是,Hbase 定义表只需要声明列族即可,不需要声明具体的列。 这就意味着,往Hbase 写入数据时,字段可以动态、按需指定。

2021-11-26 23:15:49 2407

原创 Kafka

Kafka 基础知识一、简单介绍一下KafkaKafka 是一个分布式、可分区、多副本、基于ZooKeeper 协调的,以发布/订阅为模式的消息队列,主要应用于大数据实时处理领域。二、为什么需要消息队列举例:快递小哥<-->收件人, 快递小哥-->菜鸟驿站<--收件人。“快递小哥” 和 “收件人” 就是两个独立交互系统,菜鸟驿站就是消息队列。 消息队列有4个核心优点:解耦、异步、削峰、缓冲。1、解耦:允许你独立的扩展和修改消息队列两边的处理程序,只

2021-11-26 23:02:15 261

原创 Spark

Spark一、RDD(1)定义:RDD 又称弹性分布式数据集,是Spark中最基本的数据抽象。它代表的是一个不可变的、可分区的、里面的元素可以并行计算的集合。不可变:一旦创建就不可改变,想要改变RDD必须创建新的RDD;RDDA-->RDDB,RDDA经过转换操作变成RDDB,这两个RDD具有血缘关系,但是是两个不同的RDD。可分区& 并行计算:一个RDD通常由很多partition构成,在spark中有多少partition就对应有多少个task来执行。 (2)RDD

2021-11-26 22:56:59 1037

原创 HDFS 面试知识点

HDFS 面试知识点一、HDFS 基础知识##### 概述为什么HDFS能存储海量数据 概念 :hdfs是一个分布式的文件系统,用于海量数据的存储设计思想:分而治之,将大文件、大批量文件,分布式存放在大量服务器上,采取分而治之的方式对海量数据进行运算分析作用:为各类分布式运算框架,如:MR,Spark ,等提供数据存储服务(hbase、hive也是依托于hdfs进行数据存储)特性: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)

2021-11-26 22:32:49 1938

原创 MapReduce

MapReduce 知识点一、MapReduce 的核心思想1、Map reduce 分布式运算程序一般分成两个阶段:Map阶段 和 Reduce 阶段2、在第一阶段(Map 阶段)所有的mapTask,都是完全并行执行,彼此互不干扰3、在第二阶段(Reduce 阶段)所有的Reduce Task ,都是完全并行执行,彼此互不干扰,但是Reduce task 完全依赖于上一个阶段,即所有MapTask 并发实例的输出。二、MapReduce 编程规范1、Mapper 阶段 自定义的ma

2021-11-26 22:24:56 608

原创 MSQL常见面试问题

Mysql一、数据库基础1.1 sql 语句1.2 数据库优化SQL 优化1、我们在进行数据库查询时首先应该避免的是全表扫描,限定数据的范围。比如查询某一段时间的数据。​2、对于使用where 或者 order by 的列,我们应该建立索引。​3、通过explain显示了mysql如何使用索引来处理select语句以及连接表,可以帮助选择更好的索引和写出更优化的查询语句。​4、同时也应该避免一些索引失效的问题。​5、更多的时候是需要用到一系列的语句来完成某种工作。在这

2021-11-26 20:49:12 917

原创 JAVA基础+集合+多线程+JVM

1. Java 基础1.1. 面向对象和面向过程的区别面向过程性能比面向对象高。 因为类调用时需要实例化,开销比较大,比较消耗资源,所以当性能是最重要的考量因素的时候 等一般采用面向过程开发。但是,面向过程没有面向对象易维护、易复用、易扩展。1.2. Java 语言有哪些特点?简单易学;面向对象平台无关性( Java 虚拟机实现平台无关性);可靠性;安全性;支持多线程;支持网络编程并且很方便( Java 语言诞生本身就是为简化网络编程设计的,因此 Java 语言不仅支持网络编程而且很方

2021-10-14 13:47:35 1206

原创 常见大厂SQL笔试面试题总结

Hive 常见笔试题一、累计次数1.1、 编写sql实现每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数数据集A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,2015-02,10 B,2015-02,5 A,2015-03,16 A,2015-03,22 B,2015-03,23 B

2021-10-12 20:33:46 1813

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除