ChatGPT函数调用初体验：让ChatGPT具备抓取网页文本的能力

一、技术背景与需求分析

在自然语言处理（NLP）领域，ChatGPT凭借其强大的语言生成能力已成为标杆工具。然而，传统模式下ChatGPT仅能基于已有知识库生成文本，无法实时获取互联网最新信息。这一局限性在需要动态数据支持的场景中尤为突出，例如市场分析、新闻聚合或学术研究。

开发者面临的痛点在于：如何让ChatGPT突破静态知识边界，实现实时网页内容抓取与分析？函数调用（Function Calling）功能的推出为此提供了技术突破口。通过定义特定函数接口，ChatGPT可在生成文本的同时调用外部工具，实现数据获取与处理的闭环。

二、函数调用技术原理

OpenAI的函数调用机制本质上是构建了一个”智能代理”系统。当用户提出涉及外部数据的需求时，ChatGPT会：

解析请求中的隐含数据需求
匹配预先定义的函数库
生成符合函数参数要求的JSON格式调用指令
接收函数返回数据并整合到回复中

这种设计模式将AI的语言理解能力与外部工具的执行力有机结合，特别适合网页抓取这类需要与互联网交互的场景。

三、实现网页文本抓取的关键步骤

1. 函数定义与注册

首先需要定义一个用于网页抓取的函数，示例如下：

def fetch_webpage(url: str, selector: str = None) -> dict:
    """
    网页抓取函数
    :param url: 目标网页URL
    :param selector: CSS选择器（可选）
    :return: 包含标题和内容的字典
    """
    import requests
    from bs4 import BeautifulSoup
    try:
        headers = {'User-Agent': 'Mozilla/5.0'}
        response = requests.get(url, headers=headers, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')
        if selector:
            content = soup.select_one(selector).get_text(strip=True)
        else:
            # 默认抓取<main>或<article>标签内容
            main_content = soup.find('main') or soup.find('article')
            content = main_content.get_text(strip=True) if main_content else ""
        return {
            "title": soup.title.string if soup.title else "",
            "content": content[:5000],  # 限制返回长度
            "success": True
        }
    except Exception as e:
        return {"error": str(e), "success": False}

2. 函数描述文档

关键在于为函数编写符合OpenAI规范的描述文档，这决定了ChatGPT能否准确调用：

{
  "functions": [
    {
      "name": "fetch_webpage",
      "description": "抓取指定网页的文本内容",
      "parameters": {
        "type": "object",
        "properties": {
          "url": {
            "type": "string",
            "description": "目标网页的完整URL"
          },
          "selector": {
            "type": "string",
            "description": "可选的CSS选择器，用于精确定位内容"
          }
        },
        "required": ["url"]
      }
    }
  ]
}

3. 调用流程实现

实际调用时需要建立请求-响应循环：

import openai
def call_chatgpt_with_functions(prompt, functions):
    messages = [{"role": "user", "content": prompt}]
    while True:
        response = openai.ChatCompletion.create(
            model="gpt-4-0613",  # 需使用支持函数调用的版本
            messages=messages,
            functions=functions,
            function_call="auto"
        )
        request = response.choices[0].message
        # 检查是否需要调用函数
        if request.get("function_call"):
            function_name = request["function_call"]["name"]
            arguments = eval(request["function_call"]["arguments"])  # 注意安全风险
            # 执行实际函数调用
            if function_name == "fetch_webpage":
                result = fetch_webpage(arguments["url"], arguments.get("selector"))
            # 将结果返回给ChatGPT继续处理
            messages.append({
                "role": "function",
                "name": function_name,
                "content": str(result)
            })
        else:
            return request.get("content")

四、实际应用场景与优化

1. 精准内容提取

通过CSS选择器参数可实现精细控制：

# 抓取特定新闻网站的标题和正文
prompt = "请分析新浪财经最新关于AI的报道，提取标题和正文"
functions = [...]  # 前文定义的函数描述
result = call_chatgpt_with_functions(prompt, functions)

2. 错误处理机制

需建立三级错误处理体系：

网络层：重试机制+备用源
解析层：多选择器回退策略
AI层：错误描述转自然语言

3. 性能优化技巧

缓存机制：对高频访问页面建立本地缓存
异步处理：使用Celery等工具实现并发抓取
增量更新：通过ETag或Last-Modified实现差异抓取

五、安全与伦理考量

1. 合法性合规

必须遵守：

robots.txt协议
《网络安全法》相关条款
目标网站的Terms of Service

2. 反爬策略应对

建议采用：

动态User-Agent轮换
代理IP池
请求频率控制（建议不超过1次/秒）

3. 数据隐私保护

避免抓取包含个人信息的字段
建立数据脱敏流程
符合GDPR等隐私法规

六、进阶应用方向

1. 多模态抓取

结合OCR和计算机视觉技术，可扩展抓取图片中的文字或PDF文档内容。

2. 动态内容处理

通过分析JavaScript渲染的网页，可抓取AJAX加载的动态内容。

3. 智能解析引擎

结合ChatGPT的文本理解能力，可自动识别：

文章结构（引言/正文/结论）
关键数据点
情感倾向分析

七、完整实现示例

# 完整流程示例
import openai
from typing import Dict, Any
def initialize_chat():
    functions = [{
        "name": "fetch_webpage",
        "description": "抓取网页内容",
        "parameters": {
            "type": "object",
            "properties": {
                "url": {"type": "string", "description": "网页URL"},
                "selector": {"type": "string", "description": "CSS选择器"}
            },
            "required": ["url"]
        }
    }]
    return functions
def process_user_query(query: str, functions: list) -> str:
    messages = [{"role": "user", "content": query}]
    while True:
        response = openai.ChatCompletion.create(
            model="gpt-4-0613",
            messages=messages,
            functions=functions,
            function_call="auto"
        )
        message = response.choices[0].message
        if message.get("function_call"):
            args = eval(message["function_call"]["arguments"])
            result = fetch_webpage(args["url"], args.get("selector"))
            messages.append({
                "role": "function",
                "name": "fetch_webpage",
                "content": str(result)
            })
        else:
            return message.get("content", "未能获取有效回复")
# 使用示例
if __name__ == "__main__":
    functions = initialize_chat()
    user_query = "请抓取https://tech.sina.com.cn/ai/的最新AI行业分析文章"
    print(process_user_query(user_query, functions))

八、未来发展趋势

随着GPT-5等更强大模型的推出，函数调用将向更智能的方向发展：

自动函数生成：根据需求动态创建抓取函数
语义选择器：通过自然语言描述定位元素
多步骤推理：自动规划抓取-分析-总结的完整流程

ChatGPT函数调用实战：赋予AI网页文本抓取新技能