Python脚本抓取音乐平台歌曲的实践：以百度FM为例

一、技术背景与需求分析

在音乐资源获取场景中，开发者常需通过编程方式抓取平台歌曲数据。以百度FM为例，其网页端通过动态加载技术实现内容展示，传统静态爬取方法难以直接获取歌曲信息。本方案通过模拟浏览器行为、解析动态加载数据，实现高效、稳定的歌曲信息抓取。

核心需求包括：

动态内容获取：解决JavaScript渲染导致的HTML结构缺失问题；
数据解析：从复杂HTML中提取歌曲名称、歌手、播放链接等关键字段；
反爬策略应对：处理请求频率限制、IP封禁等平台防护机制；
数据存储：将抓取结果持久化至本地或数据库。

二、技术实现步骤

1. 环境准备

安装必要Python库：

pip install requests beautifulsoup4 selenium pandas

requests：发送HTTP请求；
BeautifulSoup：解析HTML；
Selenium：模拟浏览器行为（应对动态加载）；
pandas：数据存储与处理。

2. 动态内容抓取

百度FM等平台通过AJAX请求加载歌曲列表，直接请求首页URL无法获取完整数据。需通过以下两种方式之一：
方式一：Selenium模拟浏览器

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument("--headless")  # 无头模式
driver = webdriver.Chrome(options=options)
driver.get("https://fm.baidu.com")  # 替换为实际URL
html = driver.page_source
driver.quit()

方式二：分析API接口
通过浏览器开发者工具（Network面板）定位数据接口，直接请求JSON数据：

import requests
url = "https://fm.baidu.com/api/song/list"  # 示例接口
params = {
    "channel_id": 1,  # 频道ID
    "page": 1,
    "size": 20
}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}
response = requests.get(url, params=params, headers=headers)
data = response.json()

3. 数据解析与提取

从HTML或JSON中提取歌曲信息：
HTML解析示例：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
songs = []
for item in soup.select(".song-item"):  # 替换为实际CSS选择器
    name = item.select_one(".song-name").text
    artist = item.select_one(".artist-name").text
    songs.append({"name": name, "artist": artist})

JSON解析示例：

for song in data["songs"]:
    songs.append({
        "name": song["title"],
        "artist": song["artist"],
        "play_url": song["play_url"]
    })

4. 反爬策略应对

User-Agent轮换：模拟不同浏览器请求；
代理IP池：使用免费或付费代理服务；
请求间隔控制：通过time.sleep()避免高频请求；
Cookie管理：登录后维护会话状态（如需）。

示例代码：

import time
import random
proxies = [
    {"http": "http://10.10.1.10:3128"},
    # 更多代理IP
]
for i in range(5):
    proxy = random.choice(proxies)
    try:
        response = requests.get(url, proxies=proxy, timeout=5)
        break
    except:
        time.sleep(2)
        continue

5. 数据存储

将抓取结果保存至CSV或数据库：

import pandas as pd
df = pd.DataFrame(songs)
df.to_csv("songs.csv", index=False, encoding="utf-8")

三、优化与扩展建议

1. 性能优化

多线程/异步请求：使用concurrent.futures或aiohttp提升抓取速度；
缓存机制：对已抓取页面或接口结果进行本地缓存，减少重复请求。

2. 错误处理

重试机制：捕获请求异常并自动重试；
日志记录：记录抓取失败的歌曲ID或URL，便于后续排查。

3. 扩展功能

定时任务：通过cron或APScheduler实现每日自动抓取；
数据去重：使用哈希算法或数据库唯一约束避免重复存储。

四、注意事项

合规性：确保抓取行为符合平台服务条款，避免法律风险；
资源限制：控制抓取频率，避免对目标服务器造成过大压力；
结构变更：定期检查网页或API结构，及时更新解析逻辑。

五、总结

通过Python脚本抓取百度FM歌曲数据，需结合动态内容获取、数据解析、反爬策略应对等技术点。实际开发中，建议优先分析API接口以减少资源消耗，同时通过代理IP池和请求间隔控制提升稳定性。最终抓取的数据可进一步用于音乐推荐系统、数据分析等场景，为业务提供有力支持。