一、爬虫开发前的关键决策点

在启动编码前，开发者需完成三个核心判断：

目标类型分析：明确抓取对象是动态渲染的Web页面（需处理JavaScript）还是直接返回JSON/二进制数据的API接口。前者通常需要借助无头浏览器（如Playwright），后者则优先选择轻量级HTTP客户端。
协议特性评估：确认目标站点是否强制使用HTTP/2协议，或要求客户端支持ALPN协商、SNI扩展等高级TLS特性。这些需求将直接影响库的选择——httpx对HTTP/2的支持优于requests。
安全机制识别：检测是否存在自签名证书、双向TLS认证（mTLS）或基于IP/User-Agent的反爬策略。例如金融类站点常采用客户端证书验证，此时需在请求中附加证书文件。

典型决策树示例：

API接口 → 无需JS渲染 → 检查HTTP/2需求 → 
    是 → httpx/aiohttp 
    否 → requests
Web页面 → 需要JS渲染 → Selenium/Playwright

二、同步场景下的requests最佳实践

作为同步请求的标杆库，requests在简单场景中具有显著优势。其核心配置包含：

1. 基础请求模板

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
# 配置重试策略
retry_strategy = Retry(
    total=3,
    backoff_factor=1,
    status_forcelist=[429, 500, 502, 503, 504]
)
adapter = HTTPAdapter(max_retries=retry_strategy)
with requests.Session() as session:
    session.mount("https://", adapter)
    session.headers.update({
        "User-Agent": "Mozilla/5.0",
        "Accept-Encoding": "gzip, deflate, br"
    })
    try:
        response = session.get(
            "https://api.example.com/data",
            timeout=(5, 15),  # 连接/读取超时
            params={"page": 1}
        )
        response.raise_for_status()  # 触发HTTP错误异常
        print(f"Status: {response.status_code}")
        print(f"Data: {response.json()[:100]}...")  # 截断输出
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {str(e)}")

2. 证书处理方案

生产环境：通过verify参数指定CA证书包路径（如/etc/ssl/certs/ca-certificates.crt），确保完整证书链验证。
测试环境：对自签名证书站点，可临时禁用验证（verify=False），但需配合requests.packages.urllib3.disable_warnings()消除警告。

客户端证书：双向认证场景需通过cert参数指定证书文件：

session.get(
    "https://secure.example.com",
    cert=("/path/client.crt", "/path/client.key")
)

三、异步高并发架构设计

当需要处理千级以上并发请求时，异步方案可显著降低资源消耗。当前主流方案对比：

特性	httpx (Async)	aiohttp
HTTP/2支持	✅	❌
连接池管理	自动复用	需手动配置
性能	较高（基于httpcore）	极高（底层C加速）

1. httpx异步实现

import httpx
import asyncio
async def fetch_url(client, url):
    try:
        response = await client.get(url)
        return {
            "url": url,
            "status": response.status_code,
            "length": len(response.content)
        }
    except httpx.HTTPStatusError as e:
        return {"url": url, "error": str(e)}
async def main():
    urls = [f"https://api.example.com/data/{i}" for i in range(100)]
    async with httpx.AsyncClient(
        http2=True,
        timeout=30.0,
        limits=httpx.Limits(max_connections=100)
    ) as client:
        tasks = [fetch_url(client, url) for url in urls]
        results = await asyncio.gather(*tasks, return_exceptions=True)
    for result in results:
        print(result)
asyncio.run(main())

2. 性能优化技巧

连接复用：通过limits参数控制最大连接数（建议值=并发数/4）
DNS缓存：使用trust_env=True继承系统DNS缓存
压缩支持：默认接受gzip/deflate/br压缩，减少网络传输量
批量请求：对支持HTTP/2的站点，可复用TCP连接发送多个请求

四、HTTPS异常诊断与修复

1. 证书验证失败

现象：CERTIFICATE_VERIFY_FAILED
解决方案：

更新本地CA证书库（Linux: update-ca-certificates）
显式指定证书路径：verify="/path/to/cert.pem"
对自签名证书，使用openssl s_client -connect example.com:443获取证书内容，保存为PEM格式

2. SNI不匹配

现象：TLS握手失败或返回默认证书
排查步骤：

# 检查目标域名的SNI配置
openssl s_client -connect example.com:443 -servername example.com
# 对比无SNI的连接结果
openssl s_client -connect example.com:443

3. 重定向问题

处理策略：

保持Session对象复用以继承Cookies
显式禁用重定向（allow_redirects=False）并手动处理Location头
对OAuth等签名接口，需在重定向后重新计算签名（注意时间戳同步）

4. HTTP/2兼容性

典型问题：

服务器对HTTP/2请求返回421错误（需降级HTTP/1.1）
某些CDN对HTTP/2的请求头处理差异导致内容缺失

调试方法：

# 强制使用HTTP/1.1进行对比测试
async with httpx.AsyncClient(http2=False) as client:
    r1 = await client.get("https://example.com")  # HTTP/1.1
    r2 = await client.get("https://example.com", http2=True)  # HTTP/2
    assert r1.content == r2.content  # 验证一致性

五、生产环境部署建议

监控告警：集成日志服务记录请求成功率、延迟等关键指标
熔断机制：对连续失败的请求启动指数退避重试
IP轮换：结合代理池分散请求来源（需遵守目标站点的robots协议）
资源隔离：使用容器化部署确保爬虫进程不会影响主业务

通过系统化的工具选型、严谨的证书管理和完善的异常处理机制，开发者可构建出既高效又稳定的HTTPS爬虫系统。实际开发中建议结合目标站点的具体特性，通过AB测试验证不同方案的性能表现，持续优化抓取策略。

Python HTTPS爬虫全攻略：从工具选型到异常处理的全链路实践