etcd基本知识

核心定位与特性

etcd作为分布式系统的核心协调组件，基于Raft一致性算法实现高可用的键值存储服务。其设计初衷是为容器编排（如Kubernetes）提供可靠的配置管理、服务发现和分布式锁服务。核心特性包括：

强一致性：通过Raft协议确保所有节点数据同步，避免脑裂问题。
高可用性：支持多节点集群部署，容忍部分节点故障。
键值存储：提供简洁的HTTP/gRPC接口，支持TTL（生存时间）和Watch（监听变更）机制。
安全认证：集成TLS加密和RBAC权限控制，保障数据安全。

底层原理：Raft协议详解

etcd的强一致性依赖于Raft共识算法，其工作流程分为三个阶段：

Leader选举：节点通过随机超时触发选举，获得多数票的节点成为Leader。
日志复制：Leader接收客户端写请求后，生成日志条目并复制到Follower节点。
状态提交：当多数节点确认日志后，Leader提交状态变更并返回成功响应。

例如，一个5节点集群中，Leader崩溃后，剩余节点需至少3票才能选出新Leader，确保数据一致性。

典型应用场景

Kubernetes集群：存储Pod、Service等资源对象的元数据。
分布式锁服务：通过etcdctl lock命令实现资源独占访问。
配置中心：动态更新应用配置，无需重启服务。

单机部署指南

基础环境准备

操作系统：推荐Linux（Ubuntu 20.04/CentOS 7+）。
依赖项：安装curl、wget和tar工具。
版本选择：生产环境建议使用etcd v3.5+（支持gRPC-Gateway和改进的Lease管理）。

安装与配置

下载二进制包：

wget https://github.com/etcd-io/etcd/releases/download/v3.5.0/etcd-v3.5.0-linux-amd64.tar.gz
tar -xzf etcd-v3.5.0-linux-amd64.tar.gz
cd etcd-v3.5.0-linux-amd64

启动单机服务：

./etcd --name=single-node \
       --data-dir=/var/lib/etcd \
       --listen-client-urls=http://0.0.0.0:2379 \
       --advertise-client-urls=http://127.0.0.1:2379

--data-dir：指定数据存储路径。
--listen-client-urls：监听客户端连接地址。
--advertise-client-urls：对外公布的访问地址。

验证服务：

curl -L http://127.0.0.1:2379/version
# 输出示例：{"etcdserver":"3.5.0","etcdcluster":"3.5.0"}

运维建议

日志轮转：配置logrotate避免日志文件过大。
资源限制：通过--quota-backend-bytes设置存储空间上限（默认2GB）。
备份策略：定期使用etcdctl snapshot save备份数据。

高可用部署实践

集群架构设计

推荐3节点或5节点部署，以5节点为例：
| 节点角色 | IP地址 | 端口 |
|—————|———————|——————|
| Leader | 192.168.1.1 | 2379/2380 |
| Follower | 192.168.1.2 | 2379/2380 |
| Follower | 192.168.1.3 | 2379/2380 |
| Follower | 192.168.1.4 | 2379/2380 |
| Follower | 192.168.1.5 | 2379/2380 |

2379端口：客户端访问端口。
2380端口：节点间通信端口。

集群初始化

生成初始配置（以节点1为例）：

./etcd --name=node1 \
       --initial-cluster="node1=http://192.168.1.1:2380,node2=http://192.168.1.2:2380,node3=http://192.168.1.3:2380,node4=http://192.168.1.4:2380,node5=http://192.168.1.5:2380" \
       --initial-cluster-token=etcd-cluster-1 \
       --initial-advertise-peer-urls=http://192.168.1.1:2380 \
       --listen-peer-urls=http://0.0.0.0:2380 \
       --listen-client-urls=http://0.0.0.0:2379 \
       --advertise-client-urls=http://192.168.1.1:2379 \
       --data-dir=/var/lib/etcd

--initial-cluster：列出所有节点信息。
--initial-cluster-token：集群唯一标识。

其他节点配置：修改--name和--advertise-client-urls为对应IP。

验证集群状态：

ETCDCTL_API=3 ./etcdctl --endpoints=http://192.168.1.1:2379,http://192.168.1.2:2379,http://192.168.1.3:2379 endpoint status
# 输出示例：
# http://192.168.1.1:2379, 54d21cc2b4a47720, 3.5.0, 2.1 kB, true, 8, 250

故障处理与优化

节点故障恢复：
- 若Leader节点崩溃，Raft协议会自动选举新Leader。
- 恢复节点需删除--data-dir目录后重新加入集群。
性能调优：
- 批量写入：使用etcdctl put --bulk减少网络开销。
- 压缩日志：定期执行etcdctl compact清理历史版本。
- 监控指标：通过/metrics端点集成Prometheus监控。

安全加固：

# 生成TLS证书
openssl req -newkey rsa:2048 -nodes -keyout server.key -x509 -days 365 -out server.crt
# 启动时启用TLS
./etcd --cert-file=server.crt --key-file=server.key ...

总结与最佳实践

版本选择：生产环境优先使用etcd v3.5+，避免v3.4的已知内存泄漏问题。
数据备份：结合etcdctl snapshot和定时任务实现自动化备份。
监控告警：设置etcd_server_has_leader和etcd_network_peer_sent_bytes_total等指标的阈值告警。
扩容策略：集群扩容时需逐个添加节点，避免一次性引入过多变更。

通过合理配置单机模式或高可用集群，etcd能够为分布式系统提供稳定可靠的协调服务。开发者应根据业务需求选择部署方案，并持续优化运维流程以保障长期稳定性。

深入etcd：从基础概念到单机与高可用部署实践