Taerge0110-CSDN博客

原创 Python: 1- Python基础

本文主要介绍了Python基础知识，包括安装、环境配置及基本语法。首先，通过Anaconda快速安装Python及其工具包，并配置国内镜像源以提升效率，随后展示了Jupyter Notebook的使用方法。接着，讲解了Python的变量与数据类型、输入输出及基本运算符（算术、逻辑、比较等）。在控制结构部分，详细介绍了条件语句、循环语句（for、while）以及列表推导式的灵活用法。最后，涵盖了Python常用的数据结构，包括字符串、列表、元组、字典和集合，并总结了各数据结构的定义、操作及应用场景。

2025-02-14 11:34:43 776

原创数据仓库: 10- 新技术与趋势

实时数据仓库是数据仓库技术的重要发展方向，结合了流式数据处理、高性能存储和实时分析的能力，为业务实时决策和优化提供支持。尽管在性能、复杂性和成本上存在挑战，但随着技术的成熟和工具的完善，实时数据仓库的应用场景将越来越广泛。定义云数据仓库是基于云平台的数据仓库服务，支持存储、整合和分析海量数据，通常以服务（SaaS）形式提供，无需用户管理底层硬件和基础设施。特点弹性扩展：根据业务需求动态调整存储容量和计算资源，无需前期大规模投入。按需付费：基于实际使用量（存储、计算）收费，降低闲置资源的成本。

2025-01-13 18:31:50 2164 2

原创数据仓库: 9- 数据仓库数据治理

数据标准化是指通过对数据的内容、格式、命名、编码等方面设定统一标准, 以解决数据源多样化、数据冗余和数据冲突等问题, 提升数据的共享性和可用性;数据标准化是数据治理的核心, 确保数据的一致性、准确性和共享性;通过制度和实施标准, 企业可以有效降低数据管理成本, 同时为高级分析和决策提供高质量的数据支持 .

2024-12-27 17:54:27 2399

原创钉钉机器人消息推送类型案例

通过钉钉机器人, 使用同步的方式, 推送文件, 链接, 图片等信息到钉钉群; 持续更新,欢迎交流。

2024-12-13 18:04:39 1360 2

原创数据仓库: 8- 数据仓库性能优化

数据倾斜: 是指在数据分布过程中, 某些数据节点 (分区或任务) 上的数据量远远多于其它节点, 导致任务的执行时间取决于最慢的节点;某字段值过于集中 (如用户ID中大量重复值);数据分区方式导致某些分区存储了过多的数据;键值分布不均匀, 聚合或链接操作时部分键值过大;数据倾斜是数据仓库性能优化中的一个常见问题, 需要结合具体业务场景、数据分布特点以及查询模式来选择合适的解决方案;理解数据倾斜的原因、识别数据倾斜的节点, 并采取相应的措施, 可以有效提高数据仓库的查询性能 .

2024-11-29 16:37:38 1509

原创数据仓库: 7- SQL和数据处理

复杂 SQL 查询是数据仓库中不可避免的挑战, 但我们可以通过多种优化策略来提高其性能和可维护性;选择合适的优化策略需要根据具体的业务场景、数据量、性能要求等因素总和考虑;窗口函数是数据仓库中进行数据分析的利器, 它能够帮助我们更轻松地计算各种指标、排名和趋势分析;掌握窗口函数的使用方法和优化技巧, 能够显著提高数据分析的效率和灵活性;

2024-10-28 18:59:56 1648 5

原创数据仓库: 6- 数据仓库分层

清晰的数据结构: 分层结构使得数据仓库的数据组织更加清晰, 易于理解和维护;提高数据质量: 不同层次的数据经过不同的处理和校验, 可以有效提高数据质量;简化数据处理: 分层结构可以将复杂的业务逻辑分解到不同的层次, 简化数据处理流程;提高开发效率: 分层结构可以提高代码复用率, 降低开发成本, 提高开发效率;支持多种应用场景: 不同层次的数据可以满足不同业务部门和应用场景的需求;

2024-09-06 18:01:42 1507 4

原创数据仓库: 4- 数据质量管理 & 5- 元数据管理

数据清洗是数据仓库数据质量管理中至关重要的一环, 直接影响到数据仓库中数据的可靠性和分析结果的准确性;通过制定合理的清洗规则、选择合适的清洗方法、使用自动化工具以及持续监控数据质量, 可以有效地提高数据质量, 为数据分析和业务决策提供高质量的数据支持 .数据一致性指数据在不同系统、表格或时间点之间保持统一和协调的程度;它确保数据的完整性、准确性和可靠性;数据一致性检查是数据仓库数据质量管理中不可或缺的一环, 它直接影响到数据仓库中数据的可靠性和分析结果的准确性;

2024-08-23 18:22:59 1853 1

原创数据仓库: 3- ETL过程

数据抽取是数据仓库建设中的重要环节, 需要根据不同的数据源和业务需求选择合适的抽取方式和工具, 并采取有效的措施保证数据质量和效率, 为后续的数据处理和分析打下坚实的基础;数据转换的定义: 数据转换是将源系统中抽取的数据转化为符合目标数据仓库要求的过程;这包括数据清洗、标准化、聚合和结构化等操作;数据转换是 ETL 过程中至关重要的一步, 它直接影响到数据仓库的数据质量和分析结果的准确性;选择合适的转换方法和工具, 并遵循最佳实践, 可以有效地完成数据转换任务, 为数据分析和业务决策提供高质量的数据支持。

2024-08-16 16:13:48 966

原创 MapJoin 详细介绍

MapJoin 是大数据处理框架如 Apache Hive 中的一种优化技术, 专门用于提升联接操作 (Join Operation) 的效率;通常在处理海量数据时, 联接操作需要在两张或多张表直接匹配数据行, 这个过程可能会消耗大量的时间和资源;MapJoin 提供了一种优化方案, 通过Map 阶段完成联接操作, 减少数据传输量和计算开销, 从而加快查询速度;MapJoin 是大数据处理框架中一个非常有效的优秀技术, 特别适用于大表与小表的联接操作;

2024-08-13 17:53:59 3376

原创数据仓库: 2- 数据建模

星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根据具体的业务需求和数据特点进行设计;一个良好的数据模型可以提高数据查询效率, 方便进行多维分析, 并支持业务决策;

2024-08-09 17:04:26 1509 4

原创数据仓库: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源的数据, 并将其转换为易于理解和分析的格式 ;

2024-08-02 16:06:14 1204

原创 Scala学习笔记20: Future 和Promise

在 Scala 中, `Future` 和 `Promise` 是用于处理异步操作的强大工具 ;它们就像一对搭档, 协同工作, 优雅地管理着那些需要花费时间的任务 .

2024-07-26 16:01:19 797

原创 Scala学习笔记19: 隐式转换和隐式参数

隐式转换和隐式参数是 Scala 中两个强大的特性, 它们可以使代码更简洁、更灵活, 但也容易造成理解上的困难 ;`隐式转换` 允许你自动将一种类型的对象转换成另一种类型的对象, 而无需显式调用转换方法 ; 例如, 你可以定义一个隐式转换, 将整数自动转换为字符串 ;`隐式参数` 则允许你在函数定义中忽略某些参数, 编译器会在调用函数时自动查找并传入这些参数 ;例如, 你可以定义一个隐式参数, 用于表示数据库连接, 并在需要访问数据库的函数中使用它 ;

2024-07-19 16:20:53 1061

原创 Scala学习笔记18: Either 类型

Either类型为 Scala 开发者提供了一种更优雅、更安全的方式来处理可能失败的操作;它鼓励开发在代码中显式地处理成功和失败两种情况, 从而提高代码的健壮性和可读性 .

2024-07-17 17:32:50 529

原创 Scala学习笔记17: Try与异常处理

Try类型是 Scala中函数式异常处理的重要工具, 它让挖煤可以用更优雅、更简洁的方式来处理异常, 使代码更易于理解和维护 .

2024-07-15 17:13:37 912

原创 Scala学习笔记16: 注解

Scala 中的注解 (Annotations) 是一种元编程工具, 用于向编译器、运行时或其他工具提供元数据 ;注解可以应用于各种程序结构, 包括类、对象、方法、字段、参数等 ;下面是对Scala注解的详细介绍, 包括常见的注解、如何定义自定义注解, 以及使用注解的一些示例 ;

2024-07-12 16:08:19 1265 4

原创 Scala学习笔记15: 文件和正则表达式

Scala中的正则表达式功能强大, 能够满足各种文本匹配和处理的需求;希望以上介绍能够帮助你更好的理解Scala中的正则表达式 .

2024-07-05 16:05:13 1172 3

原创 [数据质量]手动实现阿里云DataWorks 的数据质量监控告警功能

使用Python 实现对数据库表的监控告警功能, 并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中数据质量的基本功能, 当然 DW的数据质量的规则类型很多, 用起来比较方便, 这里目前简单实现了其中三个规则类型的功能, 仅供参考, 欢迎交流;初次使用Python, 请多指教使用工具: MaxCompute代码可以直接copy, 可开箱即用(部分内容, 如分区层级, 可根据你自己公司的数据表进行调整); 规则内容如有不懂, 欢迎咨询讨论;

2024-06-24 17:52:50 1116

原创 Scala学习笔记14: 模式匹配和样式类

在Scala中, 模式匹配和样例类是强大的功能, 用于处理复杂的数据结构和逻辑 ;模式匹配是一种功能强大的机制, 可以根据数据的结构和属性进行匹配和处理 ;样例类是一种特殊的类, 用于简化模式匹配和不可变性 .

2024-06-21 17:48:32 1051 1

原创 Scala学习笔记13: 集合

在Scala中, 集合的化简 (reduce) 、折叠(fold) 和扫描(scan) 是常用的函数式编程操作, 用于对集合中的元素进行聚合计算;Scala提供了丰富的集合类库, 包括可变和不可变的集合类型, 以及各种高阶函数和操作符, 方便对集合进行操作和转换;不可变集合的操作不会改变原始集合, 而返回一个新的不可变集合, 这有助于避免副作用和提高代码的可维护性 .Scala的数组与Java的数组类似, 但Scala的数组可以是泛型的, 运行存储不同类型的元素;

2024-06-19 09:17:28 884 2

原创 Scala学习笔记12: 高阶函数

通过将函数视为一等公民(First-Class Citizens) , Scala支持函数作为值的概念, 使得函数可以像其他数据类型一样被操作和传递, 从而实现更具变现力和可组合性的编程风格 .通过SAM转换, Scala提供了一种简洁的方式类将函数转换为 trait 或抽象类的实例, 从而更方便地在代码中使用函数式编程的特性 .在Scala中, 匿名函数是一种没有明确名称的函数, 通常用于简单的功能或作为高阶函数的参数;

2024-06-14 16:52:56 1087

原创 Scala学习笔记11: 操作符

在Scala中, 以冒号结尾的操作符通常是右结合的;左结合性: 对于左结合性的操作符, 表达式中相同优先级的操作符从左向计算;在Scala中, 操作符的结合性是指子啊表达式中相同优先级的操作符出现时, 确定操作符的计算顺序;在Scala中, 可以使用括号来明确指定操作符的优先级, 以确保表达式的求值顺序符合预期;Scala中的赋值操作符通常以等号 (=) 结尾, 用于将右侧的值赋值给左侧的变量;

2024-06-12 16:28:23 987 1

原创 Scala学习笔记10: 特质

在Scala中, 特质(Tratis) 是一种非常强大的特性, 可以为类提供额外的功能, 类似于 Java中的接口 ;特质可以包含抽象方法、具体方法、字段等, 并且可以被类混入以增强类的功能 .

2024-06-07 16:02:56 1517

原创 Scala学习笔记9: 继承

在Scala中, 继承(Inheritance) 是面向对象编程的重要概念, 允许一个类 (子类) 继承另一个类 (父类) 的特性和行为;需要注意的是, 在Scala中, 一个类只能扩展一个类(单继承) , 到那时可以混入多个特质(traits) 来实现多重继承和代码复用 .总的来说, 在Scala中, 对象的相等性可以通过引用相等性和结构相等性来进行比较, 开发人员可以根据具体需求选择合适的比较方式 .当一个类扩展另一个类时, 他会继承父类的特性 (字段, 方法等) 并可以重写父类的方法;

2024-06-05 15:27:36 1145 1

原创 Scala学习笔记8: 包

在Scala中, 包(Packages) 用于创建命名空间, 帮助组织和管理代码, 类似与 Java 中的包;通过合理的使用这些访问修饰符, 可以控制代码中各个成员的可见性和访问权限, 从而提高代码的安全性和可维护性;通过包对象, 可以方便地共享代码和数据, 避免重复定义相同的内容, 并提高代码的组织性和可维护性 .包对象运行在包级别定义全局可以的成员, 这些成员可以被包内的所有类、对象和特质访问;通过包对象, 可以方便地在包级别共享代码和数据 , 提高代码的可维护性和可读性;

2024-05-31 15:51:44 1042 1

原创 Scala学习笔记7: 对象

在Scala中, 伴生对象 (Companion Object) 是一个与类同名的对象, 用于扩展类的功能并提供类级别的操作;通过这种方式, 你可以灵活地扩展类或特质的对象, 使其具有更多的功能和行为, 同时保持原始类或特质的不变性;通过伴生对象, 你可以在Scala中实现类级别的操作和共享的功能, 提供高代码的可维护性和灵活性;通过扩展类或特质的对象, 可以在不修改原始类或特质的情况下, 为其添加额外的功能或行为;在Scala中, 要扩展类或特质的对象, 可以使用匿名类或匿名特质的方式来实现;

2024-05-29 19:03:27 1322 2

原创 Scala学习笔记6: 类

在Scala中, 类用于创建对象的蓝图;类可以包含方法、值、变量、类型、对象和特质等成员;类名应该以大写字母开头, 可以包含构造函数、主题和方法等可以使用class关键字定义类, 并使用new关键字实例化类;

2024-05-24 16:19:42 1130

原创 Scala学习笔记5: 映射、选项以及元组

在Scala中, 构造映射的种类主要包括不可变映射 (Immutable Map) 和可变映射(Mutable Map); 方法: 交换元组中的元素顺序, 仅限于两个元素的顺序交换, 不包含是哪个或更多元素的元组;在Scala中, 构造映射(Map) 是一种常见的操作, 用于创建和初始化键值对集合;在Scala中, 可以使用通过键来获取映射 (Map) 中的值;来反转映射中的键值对, 将原来的键变为值, 值变为键;元组可以包含不同类型的元素, 并且原则的长度是固定的;和元素的索引来访问元素中的元素;

2024-05-22 17:29:46 1038 1

空空如也

空空如也