一、数据清洗与预处理实战

在数据分析流程中，数据清洗占据60%以上的工作时间。以电商订单数据为例，原始数据常包含缺失值、重复值和异常值。使用Pandas进行清洗时，inplace=True参数可实现原地修改，避免创建数据副本。例如处理缺失列时：

import pandas as pd
import numpy as np
# 模拟缺失数据
data = pd.DataFrame({
    'order_id': [1,2,3,4],
    'amount': [100, np.nan, 200, np.nan],
    'customer': ['A','B','C','D']
})
# 原地删除缺失行
data.dropna(subset=['amount'], inplace=True)
# 等效操作：data = data.dropna(subset=['amount'])

对于大数据集（GB级别），推荐使用Numpy进行数值计算。经基准测试，Numpy计算均值比Pandas快3-5倍：

import time
# 生成1000万行测试数据
large_data = pd.DataFrame({'value': np.random.rand(10_000_000)})
# Pandas计算
start = time.time()
pd_mean = large_data['value'].mean()
print(f"Pandas耗时: {time.time()-start:.2f}s")
# Numpy计算
start = time.time()
np_mean = np.mean(large_data['value'].values)
print(f"Numpy耗时: {time.time()-start:.2f}s")

二、可视化定制技巧

Matplotlib作为基础可视化库，通过参数配置可实现专业级图表。绘制带标注的折线图时，需注意坐标计算与文本偏移：

import matplotlib.pyplot as plt
# 模拟销售数据
months = ['Jan','Feb','Mar','Apr']
sales = [120, 150, 180, 90]
fig, ax = plt.subplots(figsize=(8,4))
ax.plot(months, sales, 'r-', marker='o')  # 红色实线
# 添加数据标签
for x, y in zip(months, sales):
    ax.text(x, y+2, str(y), ha='center', va='bottom')  # y+2实现垂直偏移
plt.title('Quarterly Sales Trend')
plt.ylabel('Revenue (k$)')
plt.grid(True)
plt.show()

柱状图的颜色配置可通过color参数实现，建议使用色板工具（如Coolors）生成协调配色：

categories = ['Electronics','Clothing','Food','Home']
values = [45, 30, 15, 10]
colors = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D']
plt.bar(categories, values, color=colors)
plt.title('Product Category Distribution')
plt.xticks(rotation=45)
plt.tight_layout()  # 自动调整布局
plt.show()

三、数据分组与聚合实战

订单数据分析中，分组聚合是核心操作。以餐饮订单数据为例，需计算各菜品销量：

# 模拟订单数据
orders = pd.DataFrame({
    'order_id': [101,101,102,102,103],
    'dish': ['Burger','Fries','Pizza','Salad','Burger'],
    'quantity': [2,1,1,1,3]
})
# 方法1：直接分组计数
dish_counts = orders['dish'].value_counts()
# 方法2：创建分组表后聚合
order_groups = orders.groupby(['order_id','dish']).sum().reset_index()
dish_totals = order_groups.groupby('dish')['quantity'].sum().sort_values(ascending=False)
# 绘制TOP10菜品
top_dishes = dish_totals.head(10)
plt.figure(figsize=(10,5))
plt.barh(top_dishes.index, top_dishes.values, color='#4E79A7')
plt.xlabel('Total Quantity Sold')
plt.title('Top 10 Best-Selling Dishes')
plt.gca().invert_yaxis()  # 反转Y轴使最高值在上
plt.show()

四、统计建模与预测

时间序列分析中，移动平均是常用平滑技术。使用Pandas的rolling方法实现7日移动平均：

# 模拟每日销售数据
dates = pd.date_range('2023-01-01', periods=30)
daily_sales = np.random.randint(50, 200, size=30)
sales_df = pd.DataFrame({'date': dates, 'sales': daily_sales})
# 计算7日移动平均
sales_df['7day_avg'] = sales_df['sales'].rolling(window=7).mean()
# 可视化对比
plt.figure(figsize=(12,6))
plt.plot(sales_df['date'], sales_df['sales'], 'b-', label='Daily Sales')
plt.plot(sales_df['date'], sales_df['7day_avg'], 'r--', label='7-Day MA')
plt.legend()
plt.title('Sales Trend with Moving Average')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

五、性能优化技巧

处理百万级数据时，需注意以下优化策略：

数据类型优化：将object类型转为category可节省70%内存
```python

转换前

print(orders.info()) # dish列占用高

转换后

orders[‘dish’] = orders[‘dish’].astype(‘category’)
print(orders.info()) # 内存占用显著降低

2. **分块处理**：使用`chunksize`参数读取大文件
```python
chunk_iter = pd.read_csv('large_dataset.csv', chunksize=100_000)
for chunk in chunk_iter:
    process(chunk)  # 分块处理函数

向量化操作：避免循环，使用内置方法
```python

低效方式

results = []
for val in data[‘values’]:
results.append(val * 2)

高效方式

data[‘doubled’] = data[‘values’] * 2


### 六、项目实战完整流程
以电商用户行为分析为例，完整流程包含：
1. **数据加载**：使用`pd.read_csv()`加载JSON/CSV数据
2. **清洗转换**：处理缺失值、标准化日期格式
3. **特征工程**：创建RFM（最近购买、购买频率、购买金额）指标
4. **用户分群**：使用K-Means聚类
5. **可视化报告**：生成交互式仪表盘（可结合Plotly）
```python
# 示例：RFM计算
from datetime import datetime
# 假设有订单数据
orders['order_date'] = pd.to_datetime(orders['order_date'])
latest_date = orders['order_date'].max()
# 计算RFM指标
rfm = orders.groupby('customer_id').agg({
    'order_date': lambda x: (latest_date - x.max()).days,  # Recency
    'order_id': 'count',                                   # Frequency
    'amount': 'sum'                                         # Monetary
})
rfm.columns = ['Recency', 'Frequency', 'Monetary']
# 标准化处理
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
rfm_scaled = pd.DataFrame(scaler.fit_transform(rfm), columns=rfm.columns)

通过系统掌握这五大实战场景，数据分析师可具备独立处理商业数据项目的能力。建议读者从实际业务需求出发，结合Jupyter Notebook的交互式开发环境，逐步构建完整的数据分析流水线。

2023Python数据分析实战：五大经典项目全解析