Docker部署Kafka：从单机到集群的完整实践指南

一、引言：为什么选择Docker部署Kafka？

Apache Kafka作为分布式流处理平台的核心组件，广泛应用于日志收集、实时分析等场景。传统部署方式需手动配置ZooKeeper、调整JVM参数、处理依赖冲突，而Docker通过容器化技术简化了这一过程：

环境一致性：避免因操作系统差异导致的配置问题
快速迭代：支持版本快速升级与回滚
资源隔离：每个Kafka实例拥有独立的网络和存储空间
集群扩展：通过Docker Compose或Kubernetes实现横向扩展

本文将分单机模式和集群模式两种场景，详细讲解Docker部署Kafka的完整流程，并提供生产环境优化建议。

二、单机模式部署：快速验证与开发测试

1. 环境准备

Docker版本要求：建议使用Docker 20.10+（支持Compose V2）
基础镜像选择：推荐使用bitnami/kafka或wurstmeister/kafka官方镜像
存储规划：单机建议配置至少10GB磁盘空间（日志存储）

# 创建网络（便于后续集群扩展）
docker network create kafka-net
# 创建数据卷（持久化存储）
docker volume create kafka-data

2. 单机版配置详解

使用bitnami/kafka镜像的配置示例：

# docker-compose.yml
version: '3'
services:
  kafka:
    image: bitnami/kafka:3.6.0
    container_name: kafka-single
    ports:
      - "9092:9092"
    environment:
      - KAFKA_CFG_LISTENERS=PLAINTEXT://:9092
      - KAFKA_CFG_ADVERTISED_LISTENERS=PLAINTEXT://localhost:9092
      - KAFKA_CFG_ZOOKEEPER_CONNECT=zookeeper:2181
      - ALLOW_PLAINTEXT_LISTENER=yes
    volumes:
      - kafka-data:/bitnami/kafka
    networks:
      - kafka-net
volumes:
  kafka-data:
    driver: local
networks:
  kafka-net:
    driver: bridge

关键参数说明：

KAFKA_CFG_LISTENERS：定义服务监听地址
KAFKA_CFG_ADVERTISED_LISTENERS：客户端连接地址（需与实际网络匹配）
ALLOW_PLAINTEXT_LISTENER：允许非加密连接（开发环境使用）

3. 启动与验证

docker-compose up -d
# 验证服务状态
docker logs kafka-single | grep "Kafka Server started"
# 创建测试Topic
docker exec -it kafka-single \
  kafka-topics.sh --create --topic test-topic \
  --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1
# 发送测试消息
docker exec -it kafka-single \
  kafka-console-producer.sh --topic test-topic --bootstrap-server localhost:9092
> Hello Kafka!
# 消费测试消息
docker exec -it kafka-single \
  kafka-console-consumer.sh --topic test-topic \
  --from-beginning --bootstrap-server localhost:9092

三、集群模式部署：生产环境实践

1. 集群架构设计

典型3节点集群配置：
| 节点角色 | 容器名 | 端口 | 数据卷 |
|—————|———————|———-|———————|
| Broker1 | kafka-node1 | 9092 | kafka-data1 |
| Broker2 | kafka-node2 | 9093 | kafka-data2 |
| Broker3 | kafka-node3 | 9094 | kafka-data3 |

2. 多节点Compose配置

version: '3'
services:
  zookeeper:
    image: bitnami/zookeeper:3.8.1
    container_name: zookeeper
    ports:
      - "2181:2181"
    environment:
      - ALLOW_ANONYMOUS_LOGIN=yes
    volumes:
      - zookeeper-data:/bitnami/zookeeper
  kafka-node1:
    image: bitnami/kafka:3.6.0
    container_name: kafka-node1
    ports:
      - "9092:9092"
    environment:
      - KAFKA_CFG_BROKER_ID=1
      - KAFKA_CFG_LISTENERS=PLAINTEXT://:9092
      - KAFKA_CFG_ADVERTISED_LISTENERS=PLAINTEXT://kafka-node1:9092
      - KAFKA_CFG_ZOOKEEPER_CONNECT=zookeeper:2181
    volumes:
      - kafka-data1:/bitnami/kafka
    depends_on:
      - zookeeper
  kafka-node2:
    # 类似配置，BROKER_ID=2，端口9093，ADVERTISED_LISTENERS=kafka-node2:9093
    # ...
  kafka-node3:
    # 类似配置，BROKER_ID=3，端口9094，ADVERTISED_LISTENERS=kafka-node3:9094
    # ...
volumes:
  zookeeper-data:
  kafka-data1:
  kafka-data2:
  kafka-data3:

3. 集群关键配置

Broker ID：必须唯一（1-255）

监听器配置：

# server.properties片段
listeners=PLAINTEXT://0.0.0.0:9092
advertised.listeners=PLAINTEXT://<主机名或IP>:9092
listener.security.protocol.map=PLAINTEXT:PLAINTEXT
inter.broker.listener.name=PLAINTEXT

ZooKeeper连接：建议配置3-5个节点提高可用性

日志存储：

log.dirs=/bitnami/kafka/data
num.partitions=3  # 默认分区数
replication.factor=2  # 生产环境建议≥2

4. 集群验证

# 查看Topic列表
docker exec -it kafka-node1 \
  kafka-topics.sh --list --bootstrap-server kafka-node1:9092
# 描述Topic详情
docker exec -it kafka-node1 \
  kafka-topics.sh --describe --topic test-topic \
  --bootstrap-server kafka-node1:9092
# 测试高可用性（杀死一个节点后验证）
docker stop kafka-node2
# 观察剩余节点是否能继续处理请求

四、生产环境优化建议

1. 性能调优

JVM参数：
```
ENV KAFKA_HEAP_OPTS="-Xms2g -Xmx2g"
```

内核参数：

# 在宿主机调整（需root权限）
sysctl -w net.core.somaxconn=5000
sysctl -w vm.swappiness=1

2. 安全配置

SASL认证：

# server.properties
security.inter.broker.protocol=SASL_PLAINTEXT
sasl.enabled.mechanisms=PLAIN
sasl.mechanism.inter.broker.protocol=PLAIN

ACL控制：

kafka-acls.sh --authorizer-properties zookeeper.connect=zookeeper:2181 \
  --add --allow-principal User:admin --operation Write --topic test-topic

3. 监控方案

JMX导出：

ENV KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote \
  -Dcom.sun.management.jmxremote.authenticate=false \
  -Dcom.sun.management.jmxremote.port=9999"

Prometheus集成：
使用bitnami/kafka-exporter镜像构建监控链

五、常见问题解决方案

1. 连接失败排查

检查ADVERTISED_LISTENERS是否与客户端访问地址一致
验证ZooKeeper连接：
```
telnet zookeeper 2181
```

查看Broker日志：

docker logs kafka-node1 | grep -i "error"

2. 磁盘空间不足处理

设置日志保留策略：

log.retention.hours=168  # 7天
log.segment.bytes=1073741824  # 1GB分段

手动清理旧日志：

docker exec -it kafka-node1 \
  kafka-delete-records.sh --offset-json-file delete.json \
  --bootstrap-server localhost:9092

3. 集群扩容步骤

添加新节点配置（BROKER_ID=4）
创建Topic时指定replication-factor=3
使用kafka-reassign-partitions.sh重新分配分区

六、总结与扩展

通过Docker部署Kafka可显著降低运维复杂度，但需注意：

资源限制：使用--memory和--cpus参数防止容器资源耗尽
数据备份：定期备份/bitnami/kafka/data目录
版本升级：采用蓝绿部署策略，先启动新版本容器再停止旧容器

对于超大规模集群，建议结合Kubernetes Operator实现自动化管理。实际生产环境中，还需考虑跨数据中心部署、灾备方案等高级主题。

附录：完整配置文件模板及常用命令参考见GitHub仓库[示例链接]（实际使用时需替换为真实地址）