大数据、数据仓库、数据治理、数据开发、数据库等相关数据方面经验分享~

在这个信息爆炸的时代，数据已成为企业最宝贵的资产之一。然而，如何有效地管理和利用这些海量的数据资源，成为了一个亟待解决的问题。本博客，旨在深入探讨大数据治理的各个方面，比如数据仓库建设与优化、数据治理框架与策略、数据开发与ETL流程、大数据生态圈组件

原创 Cursor生成Java的README文件

本文介绍了如何使用人工智能开发工具Cursor自动生成Java项目的README文件。Cursor通过其内置的Chat功能，能够根据用户提供的提示（Prompt）和工程代码，快速生成结构化的README文档。文章详细说明了生成README的背景、前置条件（如Cursor的安装与配置）、生成Prompt的示例，以及如何查看和预览生成的文档。通过这种方式，开发者可以大幅减少编写文档的时间，同时确保文档的完整性和专业性

2025-05-19 14:48:48 820

原创 Cursor日常配置指南

Cursor是一款AI驱动的代码编辑器，旨在提升开发效率。它具备AI代码补全

2025-05-19 14:48:17 950

原创 Docker安装Ollama及使用Ollama部署大模型

Docker安装Ollama及使用Ollama部署大模型。

2025-05-03 17:59:24 808

原创 Vmware设置静态IP和主机访问

Vmware设置静态IP和主机访问。

2025-05-03 17:59:08 1297

原创 MySQL主动报错方法及实践应用调度依赖

MySQL主动报错方法及实践应用调度依赖。

2025-04-23 07:00:00 971

原创隧道 ssh -L 命令总结和 windows端口转发配置

加密隧道：所有流量通过 SSH 加密传输，避免明文暴露本地端口代理：将本地端口的访问请求转发到远程网络的指定地址和端口绕过防火墙/NAT：通过 SSH 跳板机访问原本无法直接连接的内部服务（如数据库、Web API）

2025-04-23 07:00:00 684

原创 Docker安装智能体平台Dify

Docker安装智能体平台Dify。

2025-04-16 07:00:00 902

原创 MySQL月分区分表增量数据集成方案及实践

MySQL月分区分表增量数据集成方案及实践。

2025-04-16 07:00:00 1099

原创 MySQL只读权限视图批量生成建表语句

MySQL只读权限视图批量生成建表语句。

2025-04-07 07:00:00 829

原创 MySQL插入报错Incorrect string value ‘xF0x9Fx92xA1‘ for column

MySQL插入报错Incorrect string value ‘xF0x9Fx92xA1’ for column。

2025-04-07 07:00:00 1033

原创数据建模工具-PDManer使用技巧-贴源层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 857

原创数据建模工具-PDManer使用技巧-模型层

在数据治理过程中，我们经常和数据模型打交道，这时候我们就需要一个好的工具，来完成建模这个过程，PDManer就是本文的主角。

2025-03-31 07:00:00 1537

原创增量日志明细处理共享经验总结

增量日志明细处理共享经验总结

2025-03-24 07:00:00 614

原创 Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表

Doris数据库系列2-数据湖功能-注册Hive和MySQL外部表。

2025-03-24 07:00:00 2243

原创 Apache DolphinScheduler系列8-任务组因MySQL时区报错及经验总结

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，遇到了任务组功能因为MySQL时区的原因报错了，解决思路分享

2025-03-14 07:00:00 1143 2

原创 MySQL连接较慢原因分析及解决措施

在使用MySQL的时候经常遇到**连接比较缓慢**的问题，总结了一下原因和结局措施

2025-03-14 07:00:00 1577

原创 Apache DolphinScheduler系列7-SQL任务因注释报错及经验总结

不要轻视SQL分段难度作为 Apache 的顶级项目，迭代到 3.2.0 版本还有这种低级的问题，我想可以归结为，都轻视了 SQL分段的难度，觉得这个只需要简单的关键字切分就可以了，事实上，我们公司现在的软件也有类似的问题，简单的使用分号作为分割多段 SQL 的依据，当我们的建表语句里的 comment 里有英文分号，也会导致报错，当然也不只是个例，我记得我上次使用开源工具 Apache Zeppelin 也有类似的问题。不要重复造轮子，使用成熟工具。

2025-03-09 07:00:00 1178

原创 Doris数据库系列1-单节点安装

Doris数据库系列1-单节点安装。

2025-03-09 07:00:00 832

原创 MySQL登录报错 Can’t connect to local MySQL server through socket

在使用MySQL的时候，出现这个报错，整理了一下解决思路

2025-03-08 07:00:00 1066

原创 Datax安装步骤及优劣势分析

Datax安装步骤及优劣势分析

2025-03-06 07:00:00 900

原创 Apache DolphinScheduler系列6-Datax数据集成

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些使用Datax做数据集成的实际经验

2025-03-06 07:00:00 900

原创 Apache DolphinScheduler系列5-告警配置经验分享

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些告警配置实际经验，主要是使用飞书

2025-03-04 07:00:00 362

原创 MySQL批量生成建表语句

在使用MySQL的时候，遇到需要在大批量的表中，挑选一部分表，权限又只有只读权限，工具又没有合适的，最终使用了MySQL后台表，生成建表语句，具体的做法

2025-03-04 07:00:00 1037

原创 Apache DolphinScheduler系列4-后台SQL经验分享

Apache DolphinScheduler系列4-后台SQL经验分享。

2025-03-02 07:00:00 953

原创 Apache DolphinScheduler系列2-数据质量模块技术调研报告

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。

2025-02-27 07:00:00 1026

原创 Apache DolphinScheduler系列3-任务配置经验分享

Apache DolphinScheduler系列3-任务配置经验分享。

2025-02-27 07:00:00 1140

原创数据仓库系列3-离线数仓和实时数仓

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层

2025-02-25 07:00:00 455

原创数据仓库系列4-数据治理及质量建设

数据仓库系列 4-数据治理及质量建设。

2025-02-25 07:00:00 187

原创 Apache DolphinScheduler系列1-单节点部署及测试报告

从部署环境的简介，到部署方案的介绍，以及实际的部署步骤，到解决具体的常见问题，最后给出简单的测试报告

2025-02-23 07:00:00 1492

原创 MySQL中文获取拼音的方法

MySQL中文获取拼音的方法。

2025-02-20 07:00:00 615 4

原创 MySQL查询报错 Unknown type ‘245 in column 11 of 16 in binary-encoded result set 解决办法

MySQL查询报错 Unknown type '245 in column 11 of 16 in binary-encoded result set 解决办法。

2025-02-20 07:00:00 351

原创 Spark 和 Hive 的关系与区别

Spark 和 Hive 都是大数据领域的核心组件，但定位和实现方式差异显著。以下是基于架构、引擎、存储、内核和运行效率的详细对比

2025-02-17 07:00:00 1016

原创大数据内容总结

大数据从方向分为数据建模、数据平台、数据算法。从时效性分实时大数据和离线大数据。从使用开发语言分 Java、Scala、SQL。常用平台分 Spark、Flink、Hadoop等。从各个方向分析下大数据包含哪些内容。

2025-02-17 07:00:00 737

原创 SparkSQL大增量表取最新组织关系

表取最新用户组织关系，本身是个简单的逻辑，但是当数据量大到一定程度的时候，简单的关联已经太耗费资源，且不能满足执行速度的要求，我们可以通过拆分变化和不变的用户来优化。

2025-02-11 07:00:00 605

原创 SQL语句执行顺序及实际案例

本文主要是以MySQL数据库为例，介绍SQL语句执行顺序及其实际案例，为平时编写SQL时，会遇到的比较迷惑的问题，寻找底层思路。

2025-02-11 07:00:00 765

原创大数据生态圈基础组件安装步骤

大数据生态圈有很多组件，而且需要多台机器才能良好的运行，以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。

2025-02-06 14:19:43 642

原创 Hive自定义函数简介及实践案例

本文概述了Hive自定义函数的简介及实践，阐述了自定义函数的功能与重要性。通过介绍UDF、UDAF和UDTF三种函数类型，并详细说明了它们的使用方式及作用。

2025-02-06 12:02:47 1096

原创数据仓库系列2-数据仓库规范、建模、任务

数据仓库系列2-数据仓库规范、建模、任务

2024-10-13 09:41:33 166

原创数据仓库系列1-数据仓库基础知识

数据仓库基础知识，分层架构

2024-10-13 09:28:08 401

原创 SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致

因为Spark是线程不安全的，所以如果UDF使用了非线程安全的操作，那么就会导致不可预测行为，Hive是每个UDF在单独的JVM里执行，就会好很多。

2024-10-08 13:56:02 1093

Sublime Text 3.zip

2021-05-05

PBIDesktopSetup_x64.exe

2021-04-09

Navicat Premium 15.zip

Navicat Preminm 15 好用的数据库连接客户端，可以连接多中常用数据库，mysql，mongodb等

2021-01-15

scala-intellij-bin-2020.2.5.zip

IntelliJ IDEA scala插件，给网络不好的下载本地直接安装

2021-01-15

windows安装spark2软件包.zip

windows安装spark2软件包包括： 1.spark-2.3.0-bin-hadoop2.7.tgz spark的压缩包 2.scala-2.11.8.zip scala的压缩包 3.hadoop-2.7.1.tar.gz 基础hadoop包 4.apache-maven-3.6.3-bin.zip maven压缩包 5.winutils-master.zip 解决windows下spark的问题(可以不用)

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人