一、ZooKeeper部署模式概述

ZooKeeper作为分布式协调服务的核心组件，其部署模式直接影响系统的可用性和性能。单机部署适用于开发测试环境，通过单节点快速验证功能；而集群部署（含单机伪集群模式）则通过多节点冗余实现高可用，是生产环境的推荐方案。单机伪集群模式通过在一台物理机上模拟多个ZooKeeper实例，以低成本实现集群功能的验证。

二、单机部署详解

1. 环境准备

系统要求：推荐Linux系统（如CentOS 7+），需关闭防火墙或开放2181端口。
Java环境：安装JDK 1.8+并配置JAVA_HOME环境变量。
软件下载：从Apache官网下载稳定版ZooKeeper（如3.7.0），解压至/opt/zookeeper目录。

2. 配置文件配置

核心配置：编辑conf/zoo.cfg文件，基础配置如下：
```
tickTime=2000
dataDir=/var/lib/zookeeper
clientPort=2181
```
参数说明：
- tickTime：心跳间隔（毫秒），影响会话超时计算。
- dataDir：持久化数据存储路径。
- clientPort：客户端连接端口。

3. 启动与验证

启动服务：执行bin/zkServer.sh start，观察日志确认启动成功。
连接测试：使用bin/zkCli.sh -server 127.0.0.1:2181连接，执行ls /命令验证节点创建功能。
日志分析：检查logs/zookeeper.out文件，排查启动失败原因（如端口冲突、权限不足）。

三、集群（单机伪集群）部署详解

1. 多实例配置

数据目录分离：为每个实例创建独立数据目录（如/var/lib/zookeeper1、/var/lib/zookeeper2）。
配置文件差异化：在conf/zoo1.cfg、conf/zoo2.cfg中配置不同clientPort和dataDir，并添加集群节点信息：
```
server.1=127.0.0.13888
server.2=127.0.0.13889
server.3=127.0.0.13890
```
myid文件：在每个dataDir下创建myid文件，内容为实例ID（如1、2、3）。

2. 启动与集群验证

分步启动：依次执行bin/zkServer.sh start-foreground zoo1.cfg等命令，观察日志中Leader选举过程。
状态检查：执行echo stat | nc 127.0.0.1 2181，查看Mode: leader或Mode: follower标识集群角色。
四字命令：使用echo ruok | nc 127.0.0.1 2181验证服务存活状态，返回imok表示正常。

四、常见问题与解决方案

1. 启动失败排查

端口冲突：执行netstat -tulnp | grep 2181检查端口占用，修改clientPort或终止冲突进程。
权限问题：确保dataDir和日志目录对ZooKeeper用户可写（chown -R zookeeper:zookeeper /var/lib/zookeeper）。
配置错误：检查zoo.cfg中server.X条目是否与myid文件匹配，IP地址需为集群可访问地址。

2. 集群不稳定处理

网络分区：确保所有节点间网络通畅，测试ping和telnet连通性。
数据不一致：停止所有节点，删除dataDir下version-2目录后重新启动（需谨慎操作）。
日志过大：配置log4j.properties限制日志大小，或设置autopurge.purgeInterval自动清理旧日志。

五、生产环境优化建议

硬件选型：集群节点建议使用独立物理机，配置SSD硬盘提升I/O性能。
监控集成：通过Prometheus+Grafana监控zk_server_state、zk_outstanding_requests等指标。
备份策略：定期备份dataDir下的snapshot和transaction文件，保留最近3个全量备份。
版本升级：升级前在测试环境验证兼容性，采用滚动升级方式减少服务中断。

六、总结与展望

本文通过步骤详解和案例分析，系统阐述了ZooKeeper单机与伪集群部署的核心流程。开发者可根据实际需求选择部署模式：单机模式适合快速验证，伪集群模式降低测试成本，而真实集群则是生产环境的标配。未来，随着ZooKeeper 4.0对Raft协议的支持，集群部署将进一步简化，但当前版本仍需深入理解ZAB协议以高效运维。建议开发者结合官方文档和社区案例，持续优化部署方案，构建高可用的分布式协调服务。

ZooKeeper深度实践：单机与伪集群部署全攻略