网络连接正常但特定网站无法访问的深度排查指南

一、问题现象与初步验证

当用户反馈”网络正常但某网站无法访问”时，需首先确认问题边界：

多设备交叉验证：使用不同设备（手机/PC）在不同网络环境（Wi-Fi/4G）下测试访问
协议级测试：通过curl -v http://example.com或telnet example.com 80验证基础连接
DNS解析测试：执行nslookup example.com或dig example.com检查域名解析结果

典型表现包括：

浏览器返回”ERR_CONNECTION_TIMED_OUT”（超时）
显示”DNS_PROBE_FINISHED_NXDOMAIN”（DNS解析失败）
特定运营商网络无法访问（区域性阻断）

二、DNS解析问题深度排查

1. DNS缓存污染

本地DNS缓存可能导致解析异常，可通过以下命令清除：

# Windows系统
ipconfig /flushdns
# Linux/macOS系统
sudo dscacheutil -flushcache  # macOS
sudo systemd-resolve --flush-caches  # Ubuntu

2. 递归查询故障

当公共DNS服务（如8.8.8.8）解析正常而本地DNS异常时，需检查：

路由器DNS配置是否被篡改
运营商DNS劫持（可通过traceroute验证解析路径）
本地hosts文件是否包含错误映射（/etc/hosts或C:\Windows\System32\drivers\etc\hosts）

3. 权威DNS故障

使用dig +trace example.com跟踪完整解析流程，确认：

域名是否过期
DNSSEC配置是否正确
根域名服务器返回的NS记录是否有效

三、网络层问题诊断

1. 路由追踪分析

通过traceroute（Linux/macOS）或tracert（Windows）定位网络中断点：

traceroute example.com
# 或使用MTR进行持续监测
mtr --report example.com

重点关注：

是否在特定运营商节点出现丢包
是否存在ICMP限制导致的假阳性
海外网站是否因跨境链路问题中断

2. TCP/UDP端口检测

使用nmap或nc验证端口可达性：

nmap -p 80,443 example.com
nc -zv example.com 443

常见问题：

防火墙规则阻止访问
服务器仅开放非标准端口
ISP封锁特定端口（如80端口被限制）

3. MTU问题排查

当访问大文件网站出现异常时，需测试路径MTU：

ping -s 1472 -M do example.com  # Linux
ping -l 1472 -f example.com    # Windows

若出现分片失败，需调整本地MTU值（通常设为1480）

四、应用层问题处理

1. HTTP/HTTPS协议分析

使用curl查看详细协议交互：

curl -I http://example.com  # 查看响应头
curl -v https://example.com # 显示完整握手过程

重点关注：

服务器返回的HTTP状态码（4xx/5xx）
SSL证书是否有效
重定向链是否异常

2. 浏览器开发者工具

通过Chrome DevTools的Network面板：

检查请求是否被浏览器插件拦截
查看WebSocket连接状态
分析资源加载时间线

3. CDN节点状态

对于使用内容分发网络的网站：

使用dig查询CNAME记录确认CDN提供商
访问CDN厂商提供的诊断工具（如某云厂商的”节点探测”功能）
检查源站是否对CDN节点IP做了限制

五、服务器端问题确认

1. 服务可用性监测

通过第三方监控平台（如UptimeRobot）验证：

全球各区域的访问状态
历史宕机记录分析
服务响应时间趋势

2. 日志分析

检查服务器日志中的关键错误：

# Nginx错误日志示例
2023-08-01 14:30:22 [error] 1234#0: *5678 connect() failed (111: Connection refused)

常见问题：

服务进程崩溃
连接数达到上限
磁盘空间不足

3. 负载均衡配置

当使用负载均衡器时需确认：

健康检查配置是否正确
后端服务器权重分配
会话保持策略影响

六、高级排查工具

1. Wireshark抓包分析

捕获完整TCP会话流程：

设置过滤条件tcp.port == 80 || tcp.port == 443
分析三次握手过程
检查数据包丢失或重传情况

2. TCPdump命令行抓包

tcpdump -i any -nn 'host example.com and (port 80 or port 443)' -w capture.pcap

3. 自动化诊断脚本

编写Python脚本进行批量测试：

import requests
from dns.resolver import resolve
def check_website(url):
    try:
        # DNS解析测试
        answers = resolve(url.split('//')[1].split('/')[0])
        print(f"DNS解析结果: {[str(rdata) for rdata in answers]}")
        # HTTP访问测试
        response = requests.get(url, timeout=10)
        print(f"HTTP状态码: {response.status_code}")
    except Exception as e:
        print(f"检测失败: {str(e)}")
check_website("https://example.com")

七、典型解决方案

DNS问题：
- 更换为公共DNS（1.1.1.1/8.8.8.8）
- 清除本地DNS缓存
- 修改域名TTL值
网络阻断：
- 使用VPN测试跨境访问
- 联系运营商解除限制
- 部署多线路接入
服务器故障：
- 重启服务进程
- 扩展服务器资源
- 检查防火墙规则
协议不兼容：
- 升级TLS版本
- 调整HTTP头配置
- 启用HTTP/2

八、预防性措施

建立多维度监控体系（应用性能监控+网络质量监控）
实施灰度发布策略降低故障影响范围
定期进行灾难恢复演练
维护详细的网络拓扑文档
使用配置管理工具确保环境一致性

通过系统化的排查流程，开发者可以快速定位从本地环境到服务器端的各类问题。对于企业级应用，建议结合自动化监控工具与智能告警系统，实现故障的主动发现与快速响应。当基础排查无法解决问题时，可考虑使用专业的网络诊断服务或联系云服务商技术支持获取深度分析。