原来还可以使用 DataX 进行数据同步

最新推荐文章于 2025-09-23 16:36:51 发布

原创最新推荐文章于 2025-09-23 16:36:51 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#big data #hive #java #DataX #Clickhouse

➤ 数据库专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何使用DataX进行数据同步，重点是MaxCompute到Clickhouse的数据迁移。首先，列出环境要求，如Python 2.6+和JDK 1.8+。接着，说明DataX的简单部署步骤，只需下载并解压。然后，展示了新建Job的过程，包括添加Clickhouse驱动到DataX的writer目录，并定义Job的Json文件，用于配置数据源、同步选项和预处理SQL。最后，通过Python命令执行DataX同步任务，实现MaxCompute表到Clickhouse的同步，并设置同步前清空目标表。

部署运行你感兴趣的模型镜像

DataX 进行数据同步

- - DataX

DataX

DataX 是阿里云 DataWorks 的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。地址：https://github.com/alibaba/DataX

一、环境要求

推荐 Python 2.6.X
JDK 1.8 及以上，推荐 1.8

二、DataX部署

下载解压即可使用。点击下载

三、新建 Job

DataX 的 Job 是以 Json 文件方式进行定义，各数据源读写配置详细见地址： https://github.com/alibaba/DataX/wiki/DataX-all-data-channels。

本文以 MaxCompute 同步至 Clickhouse 为例：

安装 Clickhouse 驱动。将 Clickhouse jar 放置目录 plugin\writer\rdbmswriter\lib下，同时注册Clickhouse 驱动，修改datax\plugin\writer\rdbmswriter 下的 plugin.json 文件，如下所示：

{
    "name": "rdbmswriter",
    "class": "com.alibaba.datax.plugin.reader.rdbmswriter.RdbmsWriter",
    "description": "useScene: prod. mechanism: Jdbc connection using the database, execute select sql, retrieve data from the ResultSet. warn: The more you know about the database, the less problems you encounter.",
    "developer": "alibaba",
    "drivers":[
		"ru.yandex.clickhouse.ClickHouseDriver"
	]
}

定义 Job

Job 文件可以定义任何路径下，我这是在 DataX 的 Job 目录下创建了 job.json 文件，内容如下：

{
    "job": {
        "setting": {
            "speed": {
                "channel":5
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "odpsreader",
                    "parameter": {
                        "accessId": "accessId",
                        "accessKey": "accessKey",
                        "project": "projectName",
                        "table": "tableName",
                        "column": [
                            "*"
                        ],
                        "packageAuthorizedProject": "projectName",
                        "splitMode": "record",
                        "odpsServer": "http://xxx/api",
                        "tunnelServer": ""
                    }
                },
                "writer": {
                    "name": "rdbmswriter",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:clickhouse://xx.xx.xxx.xxx:8123/databaseName",
                                "table": [
                                    "tableName"
                                ]
                            }
                        ],
                        "username": "username",
                        "password": "password",
                        "table": "tableName",
                        "column": [
                            "*"
                        ],
						"preSql": [
							"TRUNCATE table databaseName.tableName;"
						]
                    }
                }
            }
        ]
    }
}

上述 Json 大概意思是将 MaxCompute 中表 tableName 同步到 Clickhouse 并在同步前清空表，最大并发数为 5。如果同步过程中出现异常终止同步。

启动 DataX

使用 Python 命令执行同步

cd {YOUR_DATAX_DIR}
python ../bin/datax.py ../job/job.json

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本