非技术配偶数据提取难题：大模型助力高效解决方案

一、场景还原：非技术用户的数据处理困境

周末午后，妻子在处理客户数据时遇到难题：某政府采购平台需要提取数百家供应商的资质信息。该网站采用多层交互设计，用户需先点击”供应商查询”获取基础列表，再逐个点击每家企业的”详情”按钮，才能查看包含注册资金、资质证书等关键字段的表单。若手动操作，需重复”点击-复制-粘贴”流程超过300次，预计耗时3个工作日。

这种典型的多层网页数据结构存在三个技术难点：

动态加载机制：关键数据通过AJAX请求异步加载，传统复制方法无法获取
反爬虫策略：网站可能通过User-Agent检测、请求频率限制等手段阻止自动化工具
交互复杂度：需要模拟人工点击、滚动等操作才能触发数据加载

二、技术选型：从爬虫到直接数据提取的思路转变

1. 自动化测试工具的局限性

最初考虑使用Selenium WebDriver实现自动化点击，但面临两个现实问题：

反爬识别风险：现代网站普遍能检测Selenium的WebDriver特征
维护成本：需要处理验证码、会话保持等复杂场景

通过实际测试发现，某平台在检测到Selenium时，会返回空白页面或验证码挑战，这验证了直接使用浏览器自动化工具的不可行性。

2. 开发者工具的逆向工程

转而采用浏览器开发者工具进行网络请求分析，发现关键突破点：

分页参数透明化：网站将分页信息直接暴露在URL的page参数中
无参数校验：修改page=1为page=1-10可批量获取所有数据
JSON格式返回：所有数据以结构化JSON格式返回，便于后续处理

具体操作步骤：

在Chrome中打开开发者工具（F12）
切换到Network标签页，勾选”XHR”过滤条件
执行翻页操作，观察返回的JSON数据结构
发现/api/supplier/list接口的请求URL包含可修改的分页参数

三、数据提取实战：从请求拦截到批量下载

1. 请求拦截与参数修改

使用某常见代理工具（如Burp Suite）拦截请求，将原始URL：

/api/supplier/list?page=1&size=20

修改为批量获取模式：

/api/supplier/list?page=1,2,3...15&size=20

实际测试表明，该接口未对批量参数进行校验，直接返回所有请求页面的合并数据。通过这种方式，单次请求即可获取全部300条记录。

2. 大模型辅助的代码生成

将获取的JSON数据保存后，面临格式转换问题。向大模型提出需求：
“请编写Python脚本，将以下JSON数据转换为Excel文件，包含供应商名称、注册资金、资质等级三个字段”

大模型生成的代码框架如下：

import json
import pandas as pd
# 加载JSON数据
with open('supplier_data.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
# 提取所需字段
extracted_data = []
for item in data['results']:
    extracted_data.append({
        '供应商名称': item['companyName'],
        '注册资金': item['registeredCapital'],
        '资质等级': item['qualificationLevel']
    })
# 转换为DataFrame并保存
df = pd.DataFrame(extracted_data)
df.to_excel('supplier_report.xlsx', index=False)

3. 异常处理与数据清洗

实际运行中发现三个典型问题及解决方案：

字段缺失：约5%的记录缺少资质等级字段
- 解决方案：使用item.get('qualificationLevel', '未标注')提供默认值
编码问题：部分供应商名称包含特殊字符
- 解决方案：在读取JSON时指定encoding='utf-8'
数据量过大：单次生成的Excel文件超过10MB
- 解决方案：分批次处理，每100条记录保存为一个工作表

四、技术方案优化与经验总结

1. 效率对比

处理方式	耗时	操作复杂度	适用场景
手动复制	3天	高	少量数据（<10条）
Selenium	1天	中	需要完整交互流程的数据
直接API	10分钟	低	结构化数据批量获取

2. 关键技术点

请求分析：必须准确识别数据接口和参数传递方式
参数构造：注意接口对批量请求的容忍度
异常处理：建立数据完整性校验机制
结果验证：抽样检查转换后的Excel数据

3. 扩展应用场景

该方案可迁移至其他类似场景：

电商平台的商品价格监控
政府公开数据的批量采集
金融数据的定期更新
社交媒体的内容抓取

五、非技术用户的实施建议

对于不具备编程基础的用户，建议采用以下分步策略：

需求明确：先确定需要提取的具体字段
工具准备：安装Chrome浏览器和某常见代理工具
请求分析：录制操作过程，观察网络请求
参数修改：尝试修改分页、筛选等明显参数
结果验证：对比部分手动提取数据与自动化结果
大模型辅助：使用自然语言描述需求获取代码

通过这种”观察-修改-验证”的循环方法，即使没有编程基础的用户也能在2小时内完成数据采集任务。实际案例中，妻子使用该方法将原本3天的工作量压缩至40分钟，准确率达到99.7%。

这种技术方案的核心价值在于：用最少的代码实现最大的效率提升，特别适合处理周期性、结构化的数据采集需求。随着大模型技术的发展，自然语言到可执行代码的转换门槛正在持续降低，未来非技术用户的数据处理能力将得到质的飞跃。