一、DolphinScheduler单机部署模式解析

DolphinScheduler单机部署模式是指将所有核心组件（MasterServer、WorkerServer、ApiServer、AlertServer等）集中部署在单台物理机或虚拟机上，适用于开发测试环境或小型业务场景。这种模式具有部署简单、资源占用低、管理便捷等显著优势。

1.1 单机模式架构特点

单机部署时，所有服务进程共享同一JVM实例，通过内置的Zookeeper（嵌入式）实现服务发现和元数据管理。MasterServer负责工作流调度和状态管理，WorkerServer执行具体任务，ApiServer提供RESTful接口，AlertServer处理告警通知。这种紧耦合架构虽然降低了分布式系统的复杂性，但也对单点故障风险提出了更高要求。

1.2 适用场景与限制

开发测试环境：快速搭建验证工作流逻辑
小型业务系统：日均任务量<5000，资源需求<16核32G
临时性项目：项目周期短，无需长期维护

需注意的三大限制：

存在单点故障风险，Master宕机将导致整个系统不可用
资源竞争可能导致任务执行延迟
扩展性受限，无法横向扩展处理能力

二、YARN HA集成架构设计

为实现高可用性，需将DolphinScheduler的任务执行层与YARN集群解耦，通过YARN HA提供资源管理的可靠性保障。这种混合架构既保留了单机部署的管理便利性，又获得了分布式资源调度的容错能力。

2.1 YARN HA核心组件

YARN HA通过以下机制实现高可用：

Active/Standby ResourceManager：主备RM通过ZK实现自动故障转移
JournalNode集群：存储RM状态变更日志，保证数据一致性
Zookeeper集群：提供分布式锁和领导者选举服务

典型部署架构：

[DolphinScheduler单机] 
  → (REST API) → [YARN HA集群]
     ↑               ↓
[ZK集群] ←→ [JournalNode集群]

2.2 资源调度流程优化

任务提交阶段：Worker通过YARN Client向Active RM申请资源
故障转移处理：当Active RM失效时，ZK触发Standby RM接管
任务恢复机制：已分配但未执行的Container由新RM重新调度

建议配置参数：

# yarn-site.xml
yarn.resourcemanager.ha.enabled=true
yarn.resourcemanager.ha.rm-ids=rm1,rm2
yarn.resourcemanager.hostname.rm1=rm1.example.com
yarn.resourcemanager.hostname.rm2=rm2.example.com
yarn.resourcemanager.zk-address=zk1:2181,zk2:2181,zk3:2181

三、详细部署实施步骤

3.1 环境准备清单

组件	版本要求	配置建议
JDK	1.8+	OpenJDK或Oracle JDK
MySQL	5.7+/8.0+	独立实例，建议50GB+存储
Zookeeper	3.5.5+	3节点集群，配置奇数节点
YARN	2.7.2+	HA模式，配置2个RM节点
DolphinScheduler	2.0.0+	最新稳定版

3.2 单机部署配置要点

修改dolphinscheduler-env.sh：

export SPRING_PROFILES_ACTIVE=mysql
export DATASOURCE_URL="jdbc//db-host:3306/dolphinscheduler?useSSL=false"
export DATASOURCE_USERNAME="ds_user"
export DATASOURCE_PASSWORD="secure_password"

配置worker分组（worker.properties）：

worker.groups=default
worker.exec.threads=100
worker.memory.limit=8G
worker.cpu.limit=16

YARN集成配置（common.properties）：

resource.manager.ha.enable=true
resource.manager.http.address.key=yarn.resourcemanager.webapp.address
resource.manager.ha.rm-ids=rm1,rm2
resource.manager.hostname.rm1=rm1.example.com:8032
resource.manager.hostname.rm2=rm2.example.com:8032
yarn.application.status.address=http://%s:8088/ws/v1/cluster/apps/%s

3.3 HA验证测试方案

主动故障转移测试：
- 停止Active RM服务
- 验证Standby RM在30秒内接管
- 检查DolphinScheduler任务执行是否中断
网络分区测试：
- 模拟ZK集群网络分裂
- 验证DolphinScheduler能否正常处理任务
- 检查元数据一致性
资源恢复测试：
- 提交100个并发任务
- 杀死Worker进程
- 验证任务自动重试机制

四、性能调优与监控体系

4.1 关键参数优化

参数	默认值	推荐值	说明
master.exec.threads	100	200	调度线程数
worker.heartbeat.interval	10s	5s	心跳间隔
yarn.application.queue	default	high	任务队列
master.reserved.memory	1GB	4GB	Master保留内存

4.2 监控指标体系

核心监控项：
- 任务调度延迟（P99<5s）
- YARN Container分配率（>95%）
- Worker负载均衡度（标准差<15%）
告警规则示例：
```yaml

alert: “Master服务不可用”
expr: up{service=”dolphinscheduler-master”} == 0
for: 2m
labels:
severity: critical
annotations:
summary: “Master服务中断超过2分钟”
```

4.3 日志分析方案

关键日志路径：
- /opt/dolphinscheduler/logs/master.log
- /opt/dolphinscheduler/logs/worker.log
- /var/log/hadoop-yarn/yarn-yarn-resourcemanager-*.log

日志解析示例（ELK Stack配置）：

input {
file {
 path => "/opt/dolphinscheduler/logs/*.log"
 start_position => "beginning"
 sincedb_path => "/dev/null"
}
}
filter {
grok {
 match => { "message" => "%{TIMESTAMP_ISO8601:timestamp} \[%{DATA:thread}\] %{LOGLEVEL:level} %{JAVACLASS:class} - %{GREEDYDATA:message}" }
}
}
output {
elasticsearch {
 hosts => ["es-host:9200"]
 index => "dolphinscheduler-logs-%{+YYYY.MM.dd}"
}
}

五、常见问题解决方案

5.1 YARN集成故障排查

任务提交失败：
- 检查yarn.application.status.address配置
- 验证RM HA状态：yarn rmadmin -getServiceState rm1
- 查看YARN日志中的Container分配错误
资源不足问题：
- 调整yarn.scheduler.maximum-allocation-mb
- 优化任务资源请求：ds.shell.command.memory参数
- 增加Worker节点资源限制

5.2 单机模式性能瓶颈

Master CPU过载：
- 增加master.exec.threads（不超过CPU核心数2倍）
- 优化工作流设计，减少复杂依赖
- 考虑拆分大型工作流为子流程
Worker内存泄漏：
- 监控worker.memory.usage指标
- 定期重启Worker服务（建议每周）
- 升级到最新稳定版本修复已知内存问题

六、升级与扩展路径

6.1 平滑升级方案

版本兼容性矩阵：
| DolphinScheduler版本 | 推荐YARN版本 | MySQL版本 |
|———————————|———————|—————-|
| 2.0.x | 2.7.2-3.3.x | 5.7+ |
| 3.0.x（预览） | 3.0.0-3.4.x | 8.0+ |
升级步骤：
- 备份MySQL数据库（mysqldump -u root -p dolphinscheduler > backup.sql）
- 停止所有DolphinScheduler服务
- 替换二进制包并验证配置文件兼容性
- 启动服务并监控启动日志

6.2 横向扩展建议

当单机模式无法满足需求时，可按以下顺序扩展：

独立Worker节点：将Worker服务部署到单独服务器
Master集群：部署多个Master节点并配置ZK协调
API服务分离：将ApiServer独立部署实现负载均衡
数据库分片：对大规模任务数据实施分库分表

七、最佳实践总结

资源隔离策略：
- 为DolphinScheduler分配专用用户（如dsuser）
- 使用cgroups限制资源使用
- 配置ULIMIT参数：* - nofile 65536
备份恢复方案：
- 每日自动备份MySQL数据库
- 定期验证备份文件可恢复性
- 保留最近3个版本的二进制包
安全加固建议：
- 启用API认证（修改security.authentication）
- 配置SSL加密通信
- 定期轮换数据库密码

通过这种单机与YARN HA的混合部署模式，开发者可以在保持管理简便性的同时，获得接近分布式系统的可靠性保障。实际部署中应根据具体业务场景调整参数配置，并建立完善的监控告警体系，确保系统长期稳定运行。

DolphinScheduler单机模式与YARN HA集成部署指南