- 博客(14)
- 收藏
- 关注
原创 数据开发之八股整理 : 四. Hadoop小文件优化方法
在Hadoop中,小文件(远小于HDFS块大小的文件)会导致NameNode内存压力大、任务调度效率低和I/O效率低等问题。为优化这些问题,可以采取以下方法:1. 在数据采集时合并小文件成大文件再上传HDFS;2. 使用HAR文件将多个小文件打包成归档文件,减少NameNode的元数据负担;3. 使用CombineTextInputFormat将多个小文件组合成一个逻辑分片,减少Map任务数量;4. 开启uber模式,实现JVM重用
2025-05-23 15:18:50
848
原创 数据开发之八股整理 : 三. Yarn相关内容
在某个队列或任务“本应该获得的公平资源数量”与“当前实际使用资源数量”之间的差距。缺额 = 理论公平资源分配量 - 当前实际已使用资源量这个值越大,说明该队列/任务越“饿”,调度器就越倾向于把下一份资源分配给它。
2025-05-22 21:16:49
1017
原创 数据开发之八股整理 : 二. MapReduce相关内容
本文详细介绍了MapReduce框架的基础知识、工作机制及其核心组件。1. MapReduce基础: 是什么,有什么用,优缺点。2. MapReduce中的序列化, MapTask、并行度和MapReduce的切片机制3. shuffle工作流程4. 分区: 怎么分区, 分区规则是什么, 设置不同的分区和reduce task的数目会如何影响最终结果5. 排序: 什么时候排序, 为啥要排序6. map task 和 reduce task 工作机制7. 用一个例子看join在不同端的过程和特点
2025-05-21 21:24:08
958
原创 数据开发之八股整理 : 一.Hadoop, Hive相关的基础内容
本文详细介绍了Hadoop及其核心组件HDFS的基础知识、工作机制和优势。Hadoop是一个开源的大数据处理框架,主要由HDFS(分布式存储)、YARN(资源管理)和MapReduce(计算框架)组成,具备高可靠性、高扩展性、高效性和高容错性。HDFS作为Hadoop的分布式文件系统,解决了海量数据存储和高可靠访问的问题,但其不适合低延时访问和大量小文件存储。文章还深入探讨了HDFS的读写流程、节点距离计算、机架感知、数据完整性保证机制,以及NameNode和SecondaryNameNode工作机制
2025-05-18 21:25:31
940
1
原创 数开学习day02—从Hadoop到hive,hive的基本原理和基本操作,关于库/表/数据的操作,表的分类及特点,特殊数据类型及操作
1. Hadoop基本架构,从Hadoop到hive,hive与Hadoop的关系,我们为什么需要hive;2. hive的架构,我们如何去操作hive3. hive是怎么操作数据库的,hive是怎么操作数据表的4. 数据表有哪些类型,都有什么特点和作用,有了库/表之后如何加载/导出数据;5. hive中的数据有哪些特殊的类型,这些类型的特点什么,我们如何去对这些特殊类型进行查询和操作
2025-03-05 22:11:24
1192
1
原创 数开学习day01—数据仓库,维度建模,星型雪花,数仓分层等
介绍了数据仓库的概念、发展和架构设计,阐述了数据仓库在大数据平台建设中的重要性。1. 分析了传统数据存储和计算的瓶颈,提出大数据平台能有效解决这些问题。2. 回顾了数据库的基本概念,如主键、外键、复合主键以及三范式,并探讨了维度建模方法,重点讲解了星型模型与雪花模型的区别。3. 介绍数仓分层,为什么要分层,有哪些分层,每一层是用来做什么的
2025-02-27 16:18:27
624
原创 day0708—Java学习 黑马程序员JAVA p125-p138 笔记自用
List、Set、Map三种集合类及常见的实现类、区别及特点如何遍历、常用方法、底层实现哈希表,红黑树不重复的集合如何去重,升序排列的集合如何自定义排序
2025-02-22 19:29:22
750
原创 day06—Java学习 黑马程序员JAVA p114-p124 笔记自用
1. 异常—是什么/有哪些/怎么处理异常/如何自定义一个异常2. 泛型—(1)是什么(2)泛型类/接口/方法(3)通配符(4)包装类—是什么/为什么要有包装类/怎么使用包装类/包装类还有什么别的功能3. 集合——(1)是什么/体系结构/特点/分类/功能(2)collection—是什么/特点/功能/怎么遍历/不同的遍历方法有什么区别/并发异常修改问题/怎么处理并发异常修改
2025-02-20 21:42:52
578
原创 day05—Java学习 黑马程序员JAVA p88-p96 笔记自用
1. 函数式编程:(1)lambda简化匿名内部类(2)四种方法引用简化lambda2. String字符串类:(1)概念、特点、构造方式、常见方法(2)字符串常量池3. ArrayList集合:(1)概念、特点、构造方式、常见方法(2)ArrayList,List,集合的关系
2025-02-19 20:43:29
872
原创 day04—Java学习 黑马程序员JAVA p75-p87 笔记自用
1. 抽象类 、接口及他们的区别;2. 代码块;3. 内部类及常见三种内部类;4. 匿名内部类
2025-02-18 21:57:30
583
原创 day03-Java学习—黑马程序员JAVA p64-p74笔记自用
包含:1.面对对象后半——继承、多态;2.finial关键字;3.常量;4.特殊类型——单例类(懒汉式饿汉式),枚举类。
2025-02-17 21:41:20
924
原创 Windows下安装Python第三方库pycairo、pycups
查了一下好像是因为这两个库需要一些系统依赖项,GPT建议先安装所需的依赖项。按照以上教程进行下去,到了“
2024-05-31 18:46:09
640
原创 安装opencv-contrib的ReadTimeoutError和下载后无法使用cv2:AttributeError,下载成功后 ‘cv2‘ has no attribute ‘face‘的解决
安装opencv-contrib-python的超时:ReadTimeoutError和下载后无法使用cv2:partially initialized module 'cv2' has no attribute 'gapi_wip_gst_GStreamerP,以及两个都下载成功运行不报错后说cv2里没face:AttributeError: module 'cv2' has no attribute 'face'
2023-02-15 10:33:43
907
原创 人脸识别调级联器报错: !empty() in function‘cv::CascadeClassifier::detectMultiScale‘
用opencv实现人脸,实例化级联器时路径错误的检测与纠正
2023-02-14 10:43:33
1274
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人