自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Python: 1- Python基础

本文主要介绍了Python基础知识,包括安装、环境配置及基本语法。首先,通过Anaconda快速安装Python及其工具包,并配置国内镜像源以提升效率,随后展示了Jupyter Notebook的使用方法。接着,讲解了Python的变量与数据类型、输入输出及基本运算符(算术、逻辑、比较等)。在控制结构部分,详细介绍了条件语句、循环语句(for、while)以及列表推导式的灵活用法。最后,涵盖了Python常用的数据结构,包括字符串、列表、元组、字典和集合,并总结了各数据结构的定义、操作及应用场景。

2025-02-14 11:34:43 776

原创 数据仓库: 10- 新技术与趋势

实时数据仓库是数据仓库技术的重要发展方向,结合了流式数据处理、高性能存储和实时分析的能力,为业务实时决策和优化提供支持。尽管在性能、复杂性和成本上存在挑战,但随着技术的成熟和工具的完善,实时数据仓库的应用场景将越来越广泛。定义云数据仓库是基于云平台的数据仓库服务,支持存储、整合和分析海量数据,通常以服务(SaaS)形式提供,无需用户管理底层硬件和基础设施。特点弹性扩展:根据业务需求动态调整存储容量和计算资源,无需前期大规模投入。按需付费:基于实际使用量(存储、计算)收费,降低闲置资源的成本。

2025-01-13 18:31:50 2164 2

原创 数据仓库: 9- 数据仓库数据治理

数据标准化是指通过对数据的内容、格式、命名、编码等方面设定统一标准, 以解决数据源多样化、数据冗余和数据冲突等问题, 提升数据的共享性和可用性;数据标准化是数据治理的核心, 确保数据的一致性、准确性和共享性;通过制度和实施标准, 企业可以有效降低数据管理成本, 同时为高级分析和决策提供高质量的数据支持 .

2024-12-27 17:54:27 2399

原创 钉钉机器人消息推送类型案例

通过钉钉机器人, 使用同步的方式, 推送文件, 链接, 图片等信息到钉钉群; 持续更新,欢迎交流。

2024-12-13 18:04:39 1360 2

原创 数据仓库: 8- 数据仓库性能优化

数据倾斜: 是指在数据分布过程中, 某些数据节点 (分区或任务) 上的数据量远远多于其它节点, 导致任务的执行时间取决于最慢的节点;某字段值过于集中 (如用户ID中大量重复值);数据分区方式导致某些分区存储了过多的数据;键值分布不均匀, 聚合或链接操作时部分键值过大;数据倾斜是数据仓库性能优化中的一个常见问题, 需要结合具体业务场景、数据分布特点以及查询模式来选择合适的解决方案;理解数据倾斜的原因、识别数据倾斜的节点, 并采取相应的措施, 可以有效提高数据仓库的查询性能 .

2024-11-29 16:37:38 1509

原创 数据仓库: 7- SQL和数据处理

复杂 SQL 查询是数据仓库中不可避免的挑战, 但我们可以通过多种优化策略来提高其性能和可维护性;选择合适的优化策略需要根据具体的业务场景、数据量、性能要求等因素总和考虑;窗口函数是数据仓库中进行数据分析的利器, 它能够帮助我们更轻松地计算各种指标、排名和趋势分析;掌握窗口函数的使用方法和优化技巧, 能够显著提高数据分析的效率和灵活性;

2024-10-28 18:59:56 1648 5

原创 数据仓库: 6- 数据仓库分层

清晰的数据结构: 分层结构使得数据仓库的数据组织更加清晰, 易于理解和维护;提高数据质量: 不同层次的数据经过不同的处理和校验, 可以有效提高数据质量;简化数据处理: 分层结构可以将复杂的业务逻辑分解到不同的层次, 简化数据处理流程;提高开发效率: 分层结构可以提高代码复用率, 降低开发成本, 提高开发效率;支持多种应用场景: 不同层次的数据可以满足不同业务部门和应用场景的需求;

2024-09-06 18:01:42 1507 4

原创 数据仓库: 4- 数据质量管理 & 5- 元数据管理

数据清洗是数据仓库数据质量管理中至关重要的一环, 直接影响到数据仓库中数据的可靠性和分析结果的准确性;通过制定合理的清洗规则、选择合适的清洗方法、使用自动化工具以及持续监控数据质量, 可以有效地提高数据质量, 为数据分析和业务决策提供高质量的数据支持 .数据一致性指数据在不同系统、表格或时间点之间保持统一和协调的程度;它确保数据的完整性、准确性和可靠性;数据一致性检查是数据仓库数据质量管理中不可或缺的一环, 它直接影响到数据仓库中数据的可靠性和分析结果的准确性;

2024-08-23 18:22:59 1853 1

原创 数据仓库: 3- ETL过程

数据抽取是数据仓库建设中的重要环节, 需要根据不同的数据源和业务需求选择合适的抽取方式和工具, 并采取有效的措施保证数据质量和效率, 为后续的数据处理和分析打下坚实的基础;数据转换的定义: 数据转换是将源系统中抽取的数据转化为符合目标数据仓库要求的过程;这包括数据清洗、标准化、聚合和结构化等操作;数据转换是 ETL 过程中至关重要的一步, 它直接影响到数据仓库的数据质量和分析结果的准确性;选择合适的转换方法和工具, 并遵循最佳实践, 可以有效地完成数据转换任务, 为数据分析和业务决策提供高质量的数据支持。

2024-08-16 16:13:48 966

原创 MapJoin 详细介绍

MapJoin 是大数据处理框架如 Apache Hive 中的一种优化技术, 专门用于提升联接操作 (Join Operation) 的效率;通常在处理海量数据时, 联接操作需要在两张或多张表直接匹配数据行, 这个过程可能会消耗大量的时间和资源;MapJoin 提供了一种优化方案, 通过Map 阶段完成联接操作, 减少数据传输量和计算开销, 从而加快查询速度;MapJoin 是大数据处理框架中一个非常有效的优秀技术, 特别适用于大表与小表的联接操作;

2024-08-13 17:53:59 3376

原创 数据仓库: 2- 数据建模

星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根据具体的业务需求和数据特点进行设计;一个良好的数据模型可以提高数据查询效率, 方便进行多维分析, 并支持业务决策;

2024-08-09 17:04:26 1509 4

原创 数据仓库: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ;​ 它可以帮助企业整合来自不同数据源的数据, 并将其转换为易于理解和分析的格式 ;

2024-08-02 16:06:14 1204

原创 Scala学习笔记20: Future 和Promise

在 Scala 中, `Future` 和 `Promise` 是用于处理异步操作的强大工具 ;它们就像一对搭档, 协同工作, 优雅地管理着那些需要花费时间的任务 .

2024-07-26 16:01:19 797

原创 Scala学习笔记19: 隐式转换和隐式参数

隐式转换和隐式参数是 Scala 中两个强大的特性, 它们可以使代码更简洁、更灵活, 但也容易造成理解上的困难 ;`隐式转换` 允许你自动将一种类型的对象转换成另一种类型的对象, 而无需显式调用转换方法 ; 例如, 你可以定义一个隐式转换, 将整数自动转换为字符串 ;`隐式参数` 则允许你在函数定义中忽略某些参数, 编译器会在调用函数时自动查找并传入这些参数 ;例如, 你可以定义一个隐式参数, 用于表示数据库连接, 并在需要访问数据库的函数中使用它 ;

2024-07-19 16:20:53 1061

原创 Scala学习笔记18: Either 类型

Either类型为 Scala 开发者提供了一种更优雅、更安全的方式来处理可能失败的操作;它鼓励开发在代码中显式地处理成功和失败两种情况, 从而提高代码的健壮性和可读性 .

2024-07-17 17:32:50 529

原创 Scala学习笔记17: Try与异常处理

Try类型是 Scala中函数式异常处理的重要工具, 它让挖煤可以用更优雅、更简洁的方式来处理异常, 使代码更易于理解和维护 .

2024-07-15 17:13:37 912

原创 Scala学习笔记16: 注解

Scala 中的注解 (Annotations) 是一种元编程工具, 用于向编译器、运行时或其他工具提供元数据 ;注解可以应用于各种程序结构, 包括类、对象、方法、字段、参数等 ;下面是对Scala注解的详细介绍, 包括常见的注解、如何定义自定义注解, 以及使用注解的一些示例 ;

2024-07-12 16:08:19 1265 4

原创 Scala学习笔记15: 文件和正则表达式

Scala中的正则表达式功能强大, 能够满足各种文本匹配和处理的需求;希望以上介绍能够帮助你更好的理解Scala中的正则表达式 .

2024-07-05 16:05:13 1172 3

原创 [数据质量]手动实现 阿里云DataWorks 的数据质量监控告警功能

使用Python 实现对数据库表的监控告警功能, 并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中数据质量的基本功能, 当然 DW的数据质量的规则类型很多, 用起来比较方便, 这里目前简单实现了其中三个规则类型的功能, 仅供参考, 欢迎交流;初次使用Python, 请多指教使用工具: MaxCompute代码可以直接copy, 可开箱即用(部分内容, 如分区层级, 可根据你自己公司的数据表进行调整); 规则内容如有不懂, 欢迎咨询讨论;

2024-06-24 17:52:50 1116

原创 Scala学习笔记14: 模式匹配和样式类

在Scala中, 模式匹配和样例类是强大的功能, 用于处理复杂的数据结构和逻辑 ;模式匹配是一种功能强大的机制, 可以根据数据的结构和属性进行匹配和处理 ;样例类是一种特殊的类, 用于简化模式匹配和不可变性 .

2024-06-21 17:48:32 1051 1

原创 Scala学习笔记13: 集合

在Scala中, 集合的化简 (reduce) 、折叠(fold) 和扫描(scan) 是常用的函数式编程操作, 用于对集合中的元素进行聚合计算;Scala提供了丰富的集合类库, 包括可变和不可变的集合类型, 以及各种高阶函数和操作符, 方便对集合进行操作和转换;不可变集合的操作不会改变原始集合, 而返回一个新的不可变集合, 这有助于避免副作用和提高代码的可维护性 .Scala的数组与Java的数组类似, 但Scala的数组可以是泛型的, 运行存储不同类型的元素;

2024-06-19 09:17:28 884 2

原创 Scala学习笔记12: 高阶函数

通过将函数视为一等公民(First-Class Citizens) , Scala支持函数作为值的概念, 使得函数可以像其他数据类型一样被操作和传递, 从而实现更具变现力和可组合性的编程风格 .通过SAM转换, Scala提供了一种简洁的方式类将函数转换为 trait 或抽象类的实例, 从而更方便地在代码中使用函数式编程的特性 .在Scala中, 匿名函数是一种没有明确名称的函数, 通常用于简单的功能或作为高阶函数的参数;

2024-06-14 16:52:56 1087

原创 Scala学习笔记11: 操作符

在Scala中, 以冒号结尾的操作符通常是右结合的;左结合性: 对于左结合性的操作符, 表达式中相同优先级的操作符从左向计算;在Scala中, 操作符的结合性是指子啊表达式中相同优先级的操作符出现时, 确定操作符的计算顺序;在Scala中, 可以使用括号来明确指定操作符的优先级, 以确保表达式的求值顺序符合预期;Scala中的赋值操作符通常以等号 (=) 结尾, 用于将右侧的值赋值给左侧的变量;

2024-06-12 16:28:23 987 1

原创 Scala学习笔记10: 特质

在Scala中, 特质(Tratis) 是一种非常强大的特性, 可以为类提供额外的功能, 类似于 Java中的接口 ;特质可以包含抽象方法、具体方法、字段等, 并且可以被类混入以增强类的功能 .

2024-06-07 16:02:56 1517

原创 Scala学习笔记9: 继承

在Scala中, 继承(Inheritance) 是面向对象编程的重要概念, 允许一个类 (子类) 继承另一个类 (父类) 的特性和行为;需要注意的是, 在Scala中, 一个类只能扩展一个类(单继承) , 到那时可以混入多个特质(traits) 来实现多重继承和代码复用 .总的来说, 在Scala中, 对象的相等性可以通过引用相等性和结构相等性来进行比较, 开发人员可以根据具体需求选择合适的比较方式 .当一个类扩展另一个类时, 他会继承父类的特性 (字段, 方法等) 并可以重写父类的方法;

2024-06-05 15:27:36 1145 1

原创 Scala学习笔记8: 包

在Scala中, 包(Packages) 用于创建命名空间, 帮助组织和管理代码, 类似与 Java 中的包;通过合理的使用这些访问修饰符, 可以控制代码中各个成员的可见性和访问权限, 从而提高代码的安全性和可维护性;通过包对象, 可以方便地共享代码和数据, 避免重复定义相同的内容, 并提高代码的组织性和可维护性 .包对象运行在包级别定义全局可以的成员, 这些成员可以被包内的所有类、对象和特质访问;通过包对象, 可以方便地在包级别共享代码和数据 , 提高代码的可维护性和可读性;

2024-05-31 15:51:44 1042 1

原创 Scala学习笔记7: 对象

在Scala中, 伴生对象 (Companion Object) 是一个与类同名的对象, 用于扩展类的功能并提供类级别的操作;通过这种方式, 你可以灵活地扩展类或特质的对象, 使其具有更多的功能和行为, 同时保持原始类或特质的不变性;通过伴生对象, 你可以在Scala中实现类级别的操作和共享的功能, 提供高代码的可维护性和灵活性;通过扩展类或特质的对象, 可以在不修改原始类或特质的情况下, 为其添加额外的功能或行为;在Scala中, 要扩展类或特质的对象, 可以使用匿名类或匿名特质的方式来实现;

2024-05-29 19:03:27 1322 2

原创 Scala学习笔记6: 类

在Scala中, 类用于创建对象的蓝图;类可以包含方法、值、变量、类型、对象和特质等成员;类名应该以大写字母开头, 可以包含构造函数、主题和方法等可以使用class关键字定义类, 并使用new关键字实例化类;

2024-05-24 16:19:42 1130

原创 Scala学习笔记5: 映射、选项以及元组

在Scala中, 构造映射的种类主要包括 不可变映射 (Immutable Map) 和 可变映射(Mutable Map); 方法: 交换元组中的元素顺序, 仅限于两个元素的顺序交换, 不包含是哪个或更多元素的元组;在Scala中, 构造映射(Map) 是一种常见的操作, 用于创建和初始化键值对集合;在Scala中, 可以使用通过键来获取映射 (Map) 中的值;来反转映射中的键值对, 将原来的键变为值, 值变为键;元组可以包含不同类型的元素, 并且原则的长度是固定的;和元素的索引来访问元素中的元素;

2024-05-22 17:29:46 1038 1

原创 Scala学习笔记4: 数组

定长数组、变长数组、遍历数组、数组缓存、数组转换、常用算法、多维数组

2024-05-20 09:23:23 460

原创 Scala学习笔记3: 字符串

创建字符串、字符串长度、拼接字符串、格式化字符串、字符串插值

2024-05-16 09:28:02 455

原创 Scala学习笔记2: 控制结构和函数

Scala的 if/esle 语法结构与java一样, 但是在Scala中 if/else 表达式有值, 这个值就是跟在 if 或 else 之后表达式的值.相比较, 第一种写法更好, 因为它可以用来初始化一个 val, 而第二种写法中, z 必须是 var;在Scala中, 语句的终止通常使用分号 (😉 来表示, 但是大多数情况下, 分号是可选的;, 在调用函数时, 可以使用默认参数, 也可以通过指定参数的名称来传递参数值 .

2024-05-15 09:17:01 1092 1

原创 Scala学习笔记1:基础

Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。

2024-05-13 17:13:13 558

原创 Google邮箱注册教程

国内手机号码注册 Google邮箱, 详细教程(附常用AI网址)

2024-03-31 16:55:20 1466

原创 窗口函数的实现

窗口函数的实现 & MySQL 实现窗口函数功能; 众所周知: MySQL从8.0版本开始支持窗口函数, 但是对于8.0版本之前的MySQL是无法使用窗口函数的, 我们可以通过一个类似嵌套子查询的方式, 来实现窗口函数的功能;

2024-03-14 12:06:28 485

原创 CAST函数简介

将某种数据类型的表达式,显式转换为另一种数据类型。

2024-03-11 09:50:07 4772

原创 SQL的窗口函数

窗口函数分类:聚合函数、排序函数和值函数。SQL中的窗口函数是一种特殊的函数,它能够在查询结果中创建一个窗口或者窗口集合,然后对这个窗口进行计算。窗口函数可以用于分析和汇总数据,同时保留原始查询结果的行顺序。窗口函数基于查询结果的行数据进行计算,窗口函数运行在HAVING子句之后、 ORDER BY子句之前。窗口函数需要特殊的关键字OVER子句来指定窗口即触发一个窗口函数。

2024-02-29 09:09:01 1719

原创 SQL中的 CASE WHEN用法详解

​CASE WHEN语句提供了一种在 SQL 查询中根据不同条件执行逻辑的灵活方法。它可用于简单的条件检查,也可用于复杂的逻辑操作。使用CASE WHEN可以使查询更具可读性,并且可以减少在应用程序代码中进行逻辑操作的需要。

2024-02-23 17:49:05 10393

原创 计算每小时累计销售额

本题的核心是找到小时级别的序列,‘统计每年在校人数’ 也是相同类型的题目, 可以熟练使用, 不管是天级别,小时级别,分钟级别 都可以使用次方法实现;‘统计每年在校人数’: https://blog.csdn.net/Taerge0110/article/details/135137626?

2024-01-25 17:12:33 1214 1

原创 基于SQL的分析挖掘案例

背景: 一个餐厅,经营一段时间的销售数据, 根据销售数据分析客户喜好, 以提升餐厅的营业水平

2024-01-24 10:33:32 718

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除