一、Harbor 高可用架构设计

1.1 核心组件与冗余机制

Harbor 高可用架构包含三大核心组件：核心服务（Core Services）、存储系统（Object Storage/Database）和网络负载（Ingress/Load Balancer）。核心服务需部署多实例（建议≥3节点），通过 Kubernetes 的 StatefulSet 实现有序部署与持久化存储绑定。存储层采用分布式对象存储（如 MinIO、Ceph）或云存储服务（S3兼容），数据库推荐使用 PostgreSQL 集群（Patroni 或 StackGres 管理）或托管数据库服务，确保数据三副本存储。

1.2 负载均衡与流量分发

网络层需配置双活负载均衡器（如 Nginx Ingress Controller 或 MetalLB），通过健康检查机制自动剔除故障节点。建议采用 TCP/UDP 层负载均衡（L4）与 HTTP 应用层负载均衡（L7）结合的方式，L4 层处理核心 API 流量，L7 层实现基于路径的路由（如 /v2/ 指向核心服务，/chartrepo/ 指向 ChartMuseum）。

1.3 数据持久化方案

存储卷需配置动态供应（StorageClass），推荐使用 SSD 或高性能云盘。对于核心数据（数据库、Registry 存储），建议采用 ReadWriteMany 访问模式的存储类（如 CephFS、NFS Provisioner），确保多节点并发读写能力。关键数据需设置定期快照策略（Velero 或集群自带工具），快照间隔建议≤24小时。

二、Kubernetes 资源规划与配置

2.1 节点资源分配

组件类型	CPU 请求/限制	内存请求/限制	存储需求
Harbor Core	1核/2核	2Gi/4Gi	50Gi（PV）
PostgreSQL	1核/2核	2Gi/4Gi	100Gi（备份卷）
Redis	512m/1核	1Gi/2Gi	10Gi（持久卷）
Ingress	256m/512m	512Mi/1Gi	临时存储

建议为 Harbor 分配独立节点池（Node Pool），配置反亲和性规则（podAntiAffinity）确保组件分散部署。资源预留需考虑峰值负载（如镜像推送高峰期），建议预留20%资源余量。

2.2 配置文件优化

核心配置需通过 ConfigMap 管理，关键参数包括：

# harbor-core-configmap.yaml
data:
  HARBOR_ADMIN_PASSWORD: "{{ .Values.adminPassword }}"
  CONFIG_PATH: "/etc/harbor/harbor.yml"
  DATABASE_URL: "postgresql://harbor:password@postgres-cluster:5432/registry"
  STORAGE_REDIS_URL: "redis://redis-cluster:6379/1"

环境变量需通过 Secret 加密存储，推荐使用 Sealed Secrets 或 External Secrets Operator 管理敏感信息。

2.3 网络策略设计

实施零信任网络模型，通过 NetworkPolicy 限制组件间通信：

# harbor-network-policy.yaml
kind: NetworkPolicy
metadata:
  name: allow-harbor-core
spec:
  podSelector:
    matchLabels:
      app: harbor-core
  ingress:
  - from:
    - podSelector: {matchLabels: {app: nginx-ingress}}
    ports:
    - protocol: TCP
      port: 8080

仅允许 Ingress Controller 访问核心服务端口，禁止组件间直接通信。

三、部署实施流程

3.1 依赖服务部署

数据库集群：使用 Bitnami PostgreSQL HA 图表部署

helm install postgres bitnami/postgresql-ha \
--set replicaCount=3 \
--set persistence.size=100Gi \
--set postgresql.password=securepassword

Redis 集群：部署 Redis Sentinel 或 Cluster 模式

helm install redis bitnami/redis \
--set cluster.enabled=true \
--set cluster.nodes=3 \
--set master.persistence.size=10Gi

存储类配置：创建高性能存储类

# storage-class.yaml
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
name: harbor-ssd
provisioner: kubernetes.io/aws-ebs  # 或对应云提供商
parameters:
type: gp3
fsType: xfs

3.2 Harbor 核心组件部署

使用官方 Helm Chart 部署，关键参数配置：

helm install harbor harbor/harbor \
  --namespace harbor \
  --create-namespace \
  --set expose.type=ingress \
  --set expose.tls.enabled=true \
  --set expose.ingress.hosts.core=harbor.example.com \
  --set database.internal=false \
  --set database.external.host=postgres-cluster \
  --set redis.internal=false \
  --set redis.external.host=redis-cluster \
  --set persistence.persistentVolumeClaim.registry.storageClass=harbor-ssd

3.3 验证与测试

健康检查：执行 kubectl get pods -n harbor 确认所有 Pod 处于 Running 状态
功能测试：
- 镜像推送：docker push harbor.example.com/library/nginx:latest
- 镜像拉取：docker pull harbor.example.com/library/nginx:latest
- Chart 操作：helm push mychart-0.1.0.tgz harbor.example.com/chartrepo/library
故障注入测试：
- 终止单个 Core Pod 验证自动重启
- 切断数据库连接验证重试机制
- 模拟存储故障验证数据恢复能力

四、运维优化实践

4.1 监控告警体系

集成 Prometheus Operator 监控关键指标：

# harbor-service-monitor.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: harbor-core
spec:
  selector:
    matchLabels:
      app: harbor-core
  endpoints:
  - port: http
    path: /metrics
    interval: 30s

关键告警规则：

磁盘使用率 >85%
5xx 错误率 >5%
数据库连接失败
推送/拉取延迟 >5s

4.2 备份恢复策略

数据库备份：使用 pg_dump 定期备份，存储至对象存储

kubectl exec -n harbor postgres-cluster-0 -- \
pg_dump -U harbor -h localhost registry > /backup/registry_$(date +%F).sql

Registry 数据备份：通过 Harbor API 触发系统备份

curl -X POST -u admin:password \
"https://harbor.example.com/api/v2.0/systembackups" \
-H "Content-Type: application/json" \
-d '{"backup_type": "full"}'

恢复演练：每季度执行一次完整恢复测试，验证备份文件有效性。

4.3 性能调优建议

缓存优化：配置 Redis 作为镜像层缓存，减少存储 I/O
并发控制：调整 max_job_workers 参数（默认10）应对高并发推送

GC 策略：设置定时任务执行垃圾回收（建议每周日凌晨执行）

kubectl exec -n harbor harbor-core-0 -- \
/harbor/garbage_collection -t immediate -d 3600

五、常见问题解决方案

5.1 证书配置错误

现象：x509: certificate signed by unknown authority
解决：

检查 Ingress TLS 证书是否有效
在 Docker 客户端配置 insecure-registries（仅测试环境）

重新生成证书并更新 Secret：

openssl req -x509 -nodes -days 365 -newkey rsa:2048 \
-keyout tls.key -out tls.crt -subj "/CN=harbor.example.com"
kubectl create secret tls harbor-tls -n harbor \
--key=tls.key --cert=tls.crt

5.2 数据库连接超时

现象：pq: could not connect to server
解决：

检查 PostgreSQL 服务端点是否可达
验证连接池配置（max_connections 建议≥100）

调整内核参数：

# 在数据库节点执行
sysctl -w net.core.somaxconn=1024
sysctl -w net.ipv4.tcp_max_syn_backlog=2048

5.3 存储性能瓶颈

现象：镜像推送/拉取缓慢
解决：

检查存储类性能指标（IOPS、吞吐量）
启用 Registry 存储驱动的 cache 选项

对大文件（>1GB）启用分块上传：

# harbor.yml 配置
storage:
chunk_size: 5242880  # 5MB 分块

六、进阶功能扩展

6.1 多集群镜像同步

配置 Harbor 的复制策略实现跨集群镜像分发：

# replication-policy.yaml
apiVersion: goharbor.io/v1alpha1
kind: ReplicationPolicy
metadata:
  name: cluster-sync
spec:
  name: "prod-to-dev"
  project_id: 1
  target_id: 2  # 目标 Harbor 实例ID
  filters:
  - type: "name"
    value: "prod/*"
  trigger:
    type: "manual"

6.2 镜像签名验证

集成 Notary 实现内容信任：

部署 Notary Server/Signer

配置 Harbor 启用内容信任：

# harbor.yml
notary:
enabled: true
server_url: "https://notary.example.com"

客户端使用 docker trust 命令签名镜像

6.3 审计日志分析

通过 Fluentd 收集审计日志并导入 ELK：

# fluentd-configmap.yaml
data:
  fluent.conf: |
    <source>
      @type tail
      path /var/log/containers/harbor-core*.log
      pos_file /var/log/harbor-audit.pos
      tag harbor.audit
      <parse>
        @type json
      </parse>
    </source>
    <match harbor.audit>
      @type elasticsearch
      host elasticsearch.example.com
      port 9200
      index_name harbor-audit-${tag}
    </match>

七、总结与最佳实践

架构设计原则：遵循”3-2-1”备份规则（3份数据，2种介质，1份异地）
资源管理：为 Harbor 分配专用命名空间，设置资源配额（LimitRange）
升级策略：采用蓝绿部署方式升级核心组件，版本跨度不超过2个次要版本
安全加固：
- 启用 RBAC 权限控制
- 定期轮换管理员密码
- 禁用 HTTP 协议访问
性能基准：建议单节点 Harbor 实例支持≥500并发推送，集群模式支持≥2000并发

通过上述方案构建的 Harbor 集群，可实现99.95%的可用性（年度停机时间≤4.38小时），满足企业级生产环境对镜像仓库的严苛要求。实际部署时需根据具体业务场景调整参数，建议先在测试环境验证完整流程后再迁移至生产环境。

在 Kubernetes 中构建企业级镜像管理：高可用 Harbor 部署指南