- 博客(96)
- 收藏
- 关注
原创 详解 Pandas 的 melt 函数
Pandas 的melt()函数是用来将 DataFrame 中的很多列重塑转换为两列,一列为原来多列的列名,一列为原来多列对应的列值。
2024-10-08 18:59:22
501
1
原创 详解 Pandas 的窗口函数
Pandas 中常用的窗口函数有滑动窗口rolling()和扩张窗口,功能主要是对数据进行滚动计算、滑动统计等操作。
2024-09-22 19:28:09
666
原创 详解 Pandas 的 reset_index 函数
Pandas 的函数主要分为 Series 对象的和 DataFrame 对象的,功能是用来重置索引的,二者的用法有所不同。
2024-09-21 15:38:42
954
原创 详解 Pandas 的透视表函数
Pandas 的透视表函数主要为pivot()和,主要的功能为对 DataFrame 的行和列进行重新组合来重塑数据。
2024-09-16 19:56:55
761
原创 详解 Pandas 的累计统计函数
Pandas 中常用的累计统计函数有cumsum()cummax()cummin()cumprod(),分别是用来统计 DataFrame 中按行或按列的累加值、累计最大值、累计最小值、累乘值。
2024-09-16 14:33:01
947
原创 详解 Pandas 的两大核心数据类型
二维数组,Series 的容器,有行索引(index, axis=0)和列索引(columns, axis=1)ndarray 的相关方法可以用于 Series。一维的带标签(索引)数组。
2024-08-28 19:44:47
295
原创 Hive 实操案例六:统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前 20 的视频
视频表 t_video。用户表 t_user。
2024-06-30 18:52:56
570
原创 详解 ClickHouse 的监控及备份
ClickHouse 运行时会将一些个自身的运行状态记录到众多系统表中(system.*所以对于 ClickHouse 自身的一些运行指标的监控数据,也主要来自这些系统表。直接查询这些系统表进行监控会有一些不足之处:这种方式太过底层,监控结果不够直观,还需要在此之上实现可视化展示系统表只记录了 ClickHouse 自身的运行指标,有些时候还需要外部系统的指标进行关联分析,例如 ZooKeeper、服务器 CPU、IO 等。
2024-06-26 12:34:18
956
原创 详解 ClickHouse 的 MaterializeMySQL 引擎
ClickHouse 20.8.2.3 版本新增加了 MaterializeMySQL 的 database 引擎,该 database 能映射到 MySQL 中的某个 database , 并自动在 ClickHouse 中创建对应的 ReplacingMergeTree。ClickHouse 服务做为 MySQL 的副本,读取 Binlog 并执行 DDL 和 DML 请求,实现了基于 MySQL Binlog 机制的业务数据库实时同步功能。
2024-06-25 19:29:43
1552
原创 详解 ClickHouse 的物化视图
普通视图不保存数据,保存的仅仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,可以理解物化视图是完全的一张新表。
2024-06-25 12:33:06
1081
原创 详解 ClickHouse 的数据一致性
ClickHouse 的 ReplacingMergeTree 等引擎只能保证数据的最终一致性,在查询时可能会出现短暂数据不一致的情况(有些企业业务为了性能可以容忍一些小的不一致)
2024-06-24 23:34:52
607
原创 详解 ClickHouse 的查询优化
如果不加 GLOBAL 关键字的话,每个节点都会单独发起一次对右表的查询,而右表又是分布式表,就导致右表一共会被查询 N²次(N是该分布式表的分片数量),这就是查询放大,会带来很大开销。ClickHouse 的 join 是将右表(无论 left join、right join 还是 inner join)的数据全部加载到内存(可能 OOM),然后左表的每一条数据都去内存中查询能否匹配。将一些需要关联分析的业务创建成字典表进行 join 操作,前提是字典表不宜太大,因为字典表会常驻内存。
2024-06-24 12:26:55
1970
原创 详解 ClickHouse 的语法优化规则
ClickHouse 的 SQL 优化规则是基于 RBO(Rule Based Optimization)
2024-06-23 17:17:17
915
原创 详解 ClickHouse 的建表优化
ClickHouse 不支持设置多数据目录,为了提升数据 io 性能,可以挂载虚拟券组,一个券组绑定多块物理磁盘提升读写性能,多数据查询场景 SSD 会比普通机械硬盘快 2-3 倍。users.xml 配置项:https://clickhouse.tech/docs/en/operations/settings/settings/ClickHouse 中建表时日期、时间字段最好设置成对应的 Date 、Datetime 类型,避免后续需要经过函数转换处理,执行效率高、可读性好。查看 pipeline。
2024-06-23 11:40:22
1435
原创 详解 ClickHouse 的分片集群
分片功能依赖于 Distributed 表引擎,Distributed 表引擎本身不存储数据,有点类似于 MyCat 之于 MySql,成为一种中间件,通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据ClickHouse 进行分片集群的目的是解决数据的横向扩容,通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过 Distributed 表引擎把数据拼接起来一同使用。
2024-06-22 18:58:22
2922
1
原创 详解 ClickHouse 的副本机制
副本功能只支持 MergeTree Family 的表引擎,参考文档:https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/ClickHouse 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从其他服务器获得相同的数据。
2024-06-22 10:54:52
1252
原创 详解 ClickHouse 的表引擎
表引擎决定了如何存储表的数据。包括:数据的存储方式和位置,写到哪里以及从哪里读取数据支持哪些查询以及如何支持并发数据访问索引的使用(如果存在)是否可以执行多线程请求数据复制参数表引擎的使用方式:必须显式在创建表时定义该表使用的引擎,以及引擎使用的相关参数。特别注意:表引擎的名称大小写敏感。
2024-06-20 18:25:34
2634
原创 详解 ClickHouse 的安装部署
ClickHosue 集群模式需要依赖 Zookeeper 服务。将 4 个 rpm 安装包上传到集群三个节点的其中一个。修改 Linux 系统打开文件数限制和用户进程数限制。通过客户端服务访问 clickhouse。关闭开机自启动服务(实际生产中不关闭)在另外两个节点依次按照上述步骤进行安装。取消 Linux 的 SELINUX。修改clickhouse配置文件。启动 clickhouse 服务。使用 rpm 命令执行安装。在官网下载离线安装包。
2024-06-19 13:01:09
1144
原创 ClickHouse 入门基本介绍
官网:clickhouse.techClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++ 语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。OLAP:联机分析处理,以 ClickHouse 等分析型数据库为代表,适合对数据进行一次插入多次查询、聚合统计等操作,不太擅长数据的更新和删除,不支持事务OLTP:联机事务处理,以 Mysql 等关系型数据库为代表,适合对数据进行增删改查操作。
2024-06-18 18:55:17
485
原创 详解 HBase 的常用 API
案例 1:实现将 HDFS 中的数据写入到 Hbase 表中// 构建 FruitMapper 用于读取 HDFS 中的文件数据@override// 构建 FruitReducer 用于将 HDFS 中的文件数据写入 Hbase// TableReducer 默认的输出value类型是 Mutation,其子类有 put/delete 等@override// 1.遍历获取每行数据// 2.切割一行数据// 3.构建put对象// 4.为put对象赋值。
2024-06-17 21:18:30
1352
原创 详解 HBase 的安装部署及命令行操作
进入 HBase 下载地址:https://archive.apache.org/dist/hbase/修改 hbase-site.xml (默认的 hbase-default.xml)下载对应版本的 HBase 安装包并上传到虚拟机,并确保安装了 jdk 环境。软连接 hadoop 配置文件到 HBase。分发 hbase 安装目录到集群其他节点。修改 hbase-env.sh。将 HBase 安装包解压。启动 Hadoop 集群。启动 HBase 集群。方式一:单节点启动停止。
2024-06-16 18:33:08
1582
原创 详解 Flink CDC 的介绍和入门案例
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。 Flink CDC 是一个内置了 Debezium 的基于 Binlog 的可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。
2024-06-14 12:43:26
1589
原创 详解 Flink Table API 和 Flink SQL 之函数
UDF 显著地扩展了查询的表达能力,可以解决一些系统内置函数无法解决的需求。使用步骤为:自定义 UDF 函数类继承 UserDefinedFunction 抽象类;创建 UDF 实例并在环境中调用 registerFunction() 方法注册;在 Table API 或 SQL 中使用。
2024-06-13 18:41:18
1106
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人