Python爬虫速成指南：从HTTP协议到实战开发

一、爬虫技术基础：HTTP协议深度解析

HTTP协议是网络爬虫的核心通信基础，理解其工作原理能显著提升开发效率。作为应用层协议，HTTP通过请求-响应模型实现客户端与服务器端的交互，其核心特性包括：

无状态性：每次请求独立处理，需通过Cookie/Session机制维持会话
明文传输：默认使用ASCII编码传输数据，需注意字符集处理
请求方法体系：
- GET：用于获取资源，参数通过URL传递
- POST：用于提交数据，参数在请求体中传输
- HEAD/PUT/DELETE等：满足多样化业务需求

典型HTTP请求流程包含三个阶段：

DNS解析：将域名转换为IP地址（可通过socket.gethostbyname()验证）
TCP连接：建立三次握手（使用Wireshark可观察握手过程）
数据传输：发送请求报文并接收响应数据

开发者需特别注意HTTP头部字段的配置，常见关键字段包括：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Accept': 'application/json, text/plain, */*',
    'Referer': 'https://example.com/source',
    'X-Requested-With': 'XMLHttpRequest'  # 标识AJAX请求
}

二、主流请求库对比与选型

Python生态提供多种HTTP客户端库，各具技术特点：

库名称	优势场景	性能特点	典型缺陷
urllib	标准库，无需安装	基础功能完备	API设计不够友好
requests	开发者友好，API简洁	底层使用urllib3	大文件下载效率较低
aiohttp	异步IO支持	高并发场景优势明显	学习曲线较陡峭
httpx	兼容HTTP/2	支持同步/异步双模式	社区生态待完善

推荐学习路径：

初学者优先掌握requests库（90%常规场景适用）
掌握异步编程后升级至aiohttp
特殊需求（如HTTP/2）再研究httpx

三、爬虫开发核心流程

完整爬虫系统包含五个关键模块：

1. 请求构造模块

import requests
from fake_useragent import UserAgent
def build_request(url, method='GET', params=None, data=None):
    ua = UserAgent()
    headers = {'User-Agent': ua.random}
    try:
        if method.upper() == 'GET':
            response = requests.get(url, params=params, headers=headers)
        else:
            response = requests.post(url, data=data, headers=headers)
        response.raise_for_status()  # 检查HTTP错误
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return None

2. 数据解析模块

结构化数据：优先使用JSON解析（json.loads()）
半结构化数据：推荐BeautifulSoup（适合HTML/XML）
非结构化数据：正则表达式（需谨慎使用，避免过度匹配）

3. 反爬策略应对

4. 数据存储方案

根据数据规模选择存储方式：

小规模数据：内存存储（字典/列表）
中等规模：SQLite/CSV文件
大规模数据：分布式存储系统（需结合对象存储服务）

5. 异常处理机制

建议实现三级异常处理：

网络层异常（连接超时、DNS解析失败）
业务层异常（数据格式错误、状态码异常）
存储层异常（磁盘空间不足、权限问题）

四、实战案例：电商价格监控系统

以下是一个完整的爬虫实现示例：

import requests
from bs4 import BeautifulSoup
import time
import random
class PriceMonitor:
    def __init__(self, product_urls):
        self.urls = product_urls
        self.session = requests.Session()
        self.session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        })
    def fetch_price(self, url):
        try:
            time.sleep(random.uniform(1, 3))  # 随机延迟
            response = self.session.get(url)
            soup = BeautifulSoup(response.text, 'html.parser')
            # 假设价格在class="price"的span标签中
            price_element = soup.find('span', class_='price')
            if price_element:
                return float(price_element.text.replace('¥', '').strip())
            return None
        except Exception as e:
            print(f"Error fetching {url}: {e}")
            return None
    def monitor_prices(self):
        results = {}
        for url in self.urls:
            price = self.fetch_price(url)
            if price is not None:
                results[url] = price
        return results
# 使用示例
if __name__ == "__main__":
    product_urls = [
        'https://example.com/product/123',
        'https://example.com/product/456'
    ]
    monitor = PriceMonitor(product_urls)
    prices = monitor.monitor_prices()
    print("Current prices:", prices)

五、进阶学习建议

性能优化：研究多线程/异步编程模型
分布式架构：了解Scrapy-Redis等分布式框架
机器学习应用：探索使用NLP技术处理非结构化数据
合规性研究：深入学习《网络安全法》相关条款

建议初学者从requests库开始，逐步掌握异常处理、数据解析等核心技能，再根据业务需求扩展异步编程、分布式爬取等高级能力。实际开发中需特别注意遵守目标网站的robots.txt协议，避免法律风险。