【大数据入门核心技术-DolphinScheduler】(二)DolphinScheduler安装部署-集群模式

本文详细介绍了DolphinScheduler的集群模式部署过程,包括下载软件包、创建mysql元数据库、配置部署脚本、初始化数据库、一键部署及访问UI等步骤,帮助读者掌握大数据工作流调度器的集群部署。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、部署模式

1、单机模式

2、伪集群模式

3、集群模式

二、部署安装

1、下载

2、创建mysql元数据库

3、配置一键部署脚本

4、初始化数据库

5、一键部署 DolphinScheduler

6、访问 DolphinScheduler UI

三、启停命令


一、部署模式


DolphinScheduler 支持多种部署模式,包括单机模式(Standalone)、伪集群模式(PseudoCluster)、集群模式(Cluster)等。


1、单机模式


        单机模式(standalone)模式下,所有服务均集中于一个 StandaloneServer 进程中,并且其中内置了注册中心 Zookeeper 和数据库 H2。只需配置 JDK 环境,就可一键启动DolphinScheduler,快速体验其功能。


2、伪集群模式


        伪集群模式(Pseudo-Cluster)是在单台机器部署 DolphinScheduler 各项服务,该模式下 master、worker、api server、logger server 等服务都只在同一台机器上。Zookeeper 和数据

### DolphinSchedulerSpark集成及使用 DolphinScheduler 是一种分布式工作流任务调度系统,支持多种计算框架的任务编排和管理。其中,与 Apache Spark集成是一个常见的需求场景。 #### 1. **环境准备** 在开始之前,需确保已安装并配置好以下组件: - Hadoop 和 YARN(如果计划运行在集群模式下) - ZooKeeper(用于协调 Master 节点以及 Worker 节点之间的通信[^4]) - MySQL 或其他兼容数据库(用于存储元数据) 对于 Spark 集成部分,建议下载预编译版本的 Spark 并将其部署到目标环境中。此外,还需确认 Spark 版本与 DolphinScheduler 支持的版本一致[^2]。 --- #### 2. **修改配置文件** ##### (a) 修改 `application.properties` 文件 进入 DolphinScheduler 安装目录下的 `conf` 文件夹,编辑 `application.properties` 文件: ```properties # 设置 Spark Home 路径 ds.task.spark.home=/path/to/spark # 如果需要指定额外的 JAR 包路径,则可以在此处定义 ds.task.spark.extraJars=/path/to/extra/jars/*.jar ``` 上述设置指定了 Spark 执行所需的根目录位置及其依赖项所在的位置[^3]。 ##### (b) 更新 `environment.sh` 同样位于 `conf` 下面找到名为 `environment.sh` 的脚本,在里面添加如下变量声明以便于后续调用时能够自动加载这些参数: ```bash export SPARK_HOME="/path/to/spark" export PATH=$SPARK_HOME/bin:$PATH ``` 完成以上更改之后保存退出即可生效。 --- #### 3. **创建 Spark 类型的工作流节点** 登录至 DolphinScheduler Web UI 页面后新建项目,并按照提示逐步构建流程图结构;当新增具体操作单元时可以选择 “Shell”, "Flink", 及我们关心的目标选项——即“Spark”。 填写必要字段比如名称描述等基本信息之外还需要特别注意以下几个方面: - **Main Class**: 输入主程序入口类全限定名。 - **App Args**: 提供给应用程序启动过程中需要用到的一些命令行参数字符串形式表示出来。 - **Driver Cores / Executor Memory etc...**: 根据实际业务负载情况合理分配资源配额大小数值单位通常为GB级别衡量标准[^1]. 最后记得测试连接成功与否再提交执行! --- #### 4. **监控日志查看** 一旦作业被触发运行起来以后就可以通过界面左侧导航栏中的【运维中心】-> 【任务实例】来追踪状态变化轨迹同时也能实时获取打印出来的控制台输出内容便于排查潜在错误原因分析定位问题根源所在之处. --- ### 总结说明 综上所述完成了从基础软硬件设施搭建直至高级功能模块启用整个过程概述介绍希望能够帮助大家快速入门掌握如何正确有效地利用Apache DolphinScheduler平台来进行日常ETL处理或者其他复杂大数据应用场景开发实践当中去. ```python from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("example") .config("spark.some.config.option", "some-value") .getOrCreate() ) dataframe = spark.read.format('csv').option('header', 'true').load('/input/path') dataframe.show() spark.stop() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

forest_long

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值