容器中域名解析流程以及不同dnsPolicy对域名解析影响

一、容器域名解析基础流程

容器环境中的域名解析遵循分层处理机制，其核心流程可分为三个阶段：

1.1 本地缓存检查

容器启动时继承宿主机的DNS缓存（/etc/hosts文件及内存缓存），优先检查本地配置：

# 容器内查看hosts文件示例
cat /etc/hosts
# 典型输出：
127.0.0.1       localhost
::1             localhost ip6-localhost ip6-loopback
fe00::0         ip6-localnet
fe00::0         ip6-mcastprefix
fe00::1         ip6-allnodes
fe00::2         ip6-allrouters
172.17.0.2      my-container

当请求域名存在于该文件时，直接返回对应IP，跳过后续解析步骤。

1.2 上游DNS服务器查询

若本地缓存未命中，则根据容器配置的DNS服务器发起查询。查询路径受dnsPolicy策略控制，典型流程包括：

构造DNS查询包（标准UDP 53端口）
通过容器网络接口（如veth pair）转发至指定DNS服务器
接收并解析DNS响应报文

1.3 解析结果缓存

Kubernetes默认启用DNS缓存（通过kube-dns或CoreDNS的nodelocaldns插件），有效减少重复查询。缓存策略可通过以下参数调整：

# CoreDNS ConfigMap示例
apiVersion: v1
kind: ConfigMap
metadata:
  name: coredns
  namespace: kube-system
data:
  Corefile: |
    .:53 {
        errors
        health {
            lameduck 5s
        }
        ready
        kubernetes cluster.local in-addr.arpa ip6.arpa {
            pods insecure
            fallthrough in-addr.arpa ip6.arpa
        }
        prometheus :9153
        forward . 8.8.8.8 8.8.4.4 {  # 上游DNS服务器配置
            max_concurrent 1000
        }
        cache 30 {  # 缓存TTL设置
            success 9984 30
            denial 9984 5
        }
        loop
        reload
        loadbalance
    }

二、dnsPolicy策略详解

Kubernetes提供四种dnsPolicy策略，每种策略对域名解析流程产生不同影响：

2.1 ClusterFirst（默认策略）

处理逻辑：

优先查询集群内部DNS（Service域名解析）
未匹配的域名通过配置的upstreamNameservers查询
查询失败时回退至/etc/resolv.conf中的nameserver

典型配置：

apiVersion: v1
kind: Pod
metadata:
  name: default-policy-pod
spec:
  containers:
  - name: nginx
    image: nginx
  dnsPolicy: ClusterFirst  # 可省略，默认为此值

适用场景：

需要访问集群内部Service的容器
外部域名查询依赖集群配置的DNS服务器

2.2 ClusterFirstWithHostNet

处理逻辑：

当使用hostNetwork: true时，容器直接继承宿主机的DNS配置
仍保持ClusterFirst的集群内部域名优先解析特性
外部域名查询通过宿主机DNS配置进行

配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: host-network-pod
spec:
  hostNetwork: true
  dnsPolicy: ClusterFirstWithHostNet
  containers:
  - name: busybox
    image: busybox:1.28
    command: ["sleep", "infinity"]

注意事项：

需谨慎处理宿主机DNS配置变更的影响
适合需要直接访问主机网络资源的监控类容器

2.3 Default

处理逻辑：

继承节点（Node）的DNS配置
完全跳过集群DNS服务
查询行为与在宿主机上直接执行nslookup一致

配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: default-policy-pod
spec:
  containers:
  - name: alpine
    image: alpine:3.12
    command: ["sleep", "infinity"]
  dnsPolicy: Default  # 显式指定

风险点：

无法解析集群内部Service域名
依赖节点DNS配置的稳定性

2.4 None

处理逻辑：

完全禁用自动DNS配置
必须通过dnsConfig显式指定所有DNS参数
适合需要精细控制DNS行为的场景

完整配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: custom-dns-pod
spec:
  containers:
  - name: custom-dns
    image: nginx
  dnsPolicy: None  # 必须显式设置为None
  dnsConfig:
    nameservers:
    - 8.8.8.8
    - 1.1.1.1
    searches:
    - ns1.svc.cluster.local
    - svc.cluster.local
    - cluster.local
    options:
    - name: ndots
      value: "5"
    - name: timeout
      value: "2"

关键参数说明：

nameservers：指定DNS服务器列表
searches：设置域名搜索路径
options：配置DNS查询参数（如ndots、timeout等）

三、dnsPolicy选择策略

3.1 策略选择矩阵

策略类型	集群内部解析	外部域名解析	配置复杂度	典型应用场景
ClusterFirst	✅ 优先	通过集群DNS	低	常规应用容器
ClusterFirstWithHostNet	✅ 优先	通过宿主机DNS	中	主机网络监控容器
Default	❌ 不可用	通过节点DNS	低	特殊网络环境容器
None	❌ 不可用	完全自定义	高	需要精细控制的特殊应用

3.2 性能优化建议

减少ndots值：

# 优化前（可能导致多次查询）
options:
- name: ndots
  value: "5"
# 优化后（推荐值1-2）
options:
- name: ndots
  value: "2"

降低ndots可减少因”.”数量不足导致的多次查询

配置本地缓存：

# 使用nodelocaldns提升性能
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: node-local-dns
spec:
  template:
    spec:
      hostNetwork: true
      containers:
      - name: node-cache
        image: k8s.gcr.io/k8s-dns-node-cache:1.15.13
        args: ["-localip", "169.254.20.10", "-conf", "/etc/Corefile"]

多级DNS配置：

dnsConfig:
  nameservers:
  - 10.96.0.10       # 集群DNS
  - 8.8.8.8          # 公共DNS
  searches:
  - default.svc.cluster.local
  - svc.cluster.local
  options:
  - name: timeout
    value: "1"
  - name: attempts
    value: "3"

四、故障排查指南

4.1 常见问题诊断

DNS解析超时：

# 进入容器测试
kubectl exec -it pod-name -- sh
# 执行诊断命令
nslookup kubernetes.default
dig kubernetes.default
cat /etc/resolv.conf

解析结果不一致：
- 检查dnsPolicy与dnsConfig的配合使用
- 验证search domains配置顺序

4.2 监控指标建议

CoreDNS监控：

# Prometheus抓取配置示例
scrape_configs:
- job_name: 'coredns'
  static_configs:
  - targets: ['10.96.0.10:9153']

关键指标：

coredns_dns_request_count_total
coredns_cache_hits_total
coredns_forward_requests_total

容器级监控：

# 使用strace跟踪DNS查询
kubectl exec -it pod-name -- strace -e trace=network -f nslookup example.com

五、最佳实践总结

默认策略选择：
- 90%场景使用ClusterFirst
- 特殊网络需求考虑None策略

配置验证流程：

graph TD
  A[创建测试Pod] --> B{dnsPolicy配置}
  B -->|ClusterFirst| C[验证Service解析]
  B -->|None| D[验证自定义DNS]
  C --> E[测试外部域名]
  D --> E
  E --> F{解析成功?}
  F -->|是| G[部署生产环境]
  F -->|否| H[检查dnsConfig]

安全建议：
- 限制dnsConfig中的nameservers为可信源
- 定期审计容器DNS配置变更

通过系统掌握容器域名解析流程和dnsPolicy策略，开发者可以精准控制网络行为，构建高效稳定的容器化应用环境。实际部署时建议结合具体业务需求，通过渐进式配置验证确保网络功能的正确性。

深入解析：容器域名解析流程与dnsPolicy策略影响

容器中域名解析流程以及不同dnsPolicy对域名解析影响

一、容器域名解析基础流程

1.1 本地缓存检查

1.2 上游DNS服务器查询

1.3 解析结果缓存

二、dnsPolicy策略详解

2.1 ClusterFirst（默认策略）

2.2 ClusterFirstWithHostNet

2.3 Default

2.4 None

三、dnsPolicy选择策略

3.1 策略选择矩阵

3.2 性能优化建议

四、故障排查指南

4.1 常见问题诊断

4.2 监控指标建议

五、最佳实践总结