大数据驱动外卖增长:百度智能推荐系统深度实践

一、背景与挑战:外卖行业的增长困境

外卖行业的竞争本质是用户需求匹配效率的竞争。传统推荐系统依赖人工规则或简单协同过滤,面临三大核心挑战:

  1. 数据孤岛:用户行为分散在订单、搜索、浏览等多场景,难以形成统一画像;
  2. 时效性不足:用户口味、天气、地理位置等变量动态变化,静态模型难以适应;
  3. 长尾问题:中小商家曝光不足,导致平台流量分配失衡。

百度外卖通过构建商业智能推荐系统,以大数据为驱动,实现从“人找餐”到“餐找人”的转型。其核心逻辑是:通过海量数据挖掘用户潜在需求,结合实时上下文动态调整推荐策略,最终提升订单转化率与用户留存

二、系统架构:数据驱动的三层模型

1. 数据层:全域数据采集与融合

系统接入多源异构数据,构建用户-商家-环境的立体画像:

  • 用户数据:历史订单(菜品、价格、配送时间)、搜索关键词、浏览轨迹、评价反馈;
  • 商家数据:菜品分类、销量趋势、评分波动、促销活动;
  • 环境数据:实时天气(雨天推荐热汤)、地理位置(写字楼周边推荐快餐)、时间(晚餐高峰推荐高评分套餐)。

数据通过Kafka流处理框架实时采集,存储于Hive数据仓库,并利用Spark SQL进行清洗与特征工程。例如,将用户订单数据转换为时序特征:

  1. -- 用户近7天订单频次统计
  2. SELECT user_id,
  3. COUNT(DISTINCT order_id) AS order_count_7d,
  4. AVG(price) AS avg_price_7d
  5. FROM orders
  6. WHERE order_time >= DATE_SUB(CURRENT_DATE, 7)
  7. GROUP BY user_id;

2. 算法层:多模型融合的推荐引擎

系统采用“召回-排序-重排”三阶段架构:

  • 召回层:基于用户历史行为(如常点川菜)和实时上下文(如当前位置),通过协同过滤向量检索(Faiss库)快速筛选候选集;
  • 排序层:使用XGBoost模型融合多维度特征(用户偏好、商家质量、配送距离),输出推荐分数;
  • 重排层:引入多样性控制(避免连续推荐同类菜品)和业务规则(如新用户优先展示高评分商家)。

关键算法优化点:

  • 特征交叉:将用户历史订单中的“菜品分类”与商家“主营分类”进行笛卡尔积,生成高阶特征;
  • 实时反馈:通过Flink流计算实时更新用户偏好(如点击某菜品后,提升同类菜品权重);
  • 冷启动解决:新用户通过“地理位置+时间”泛化推荐(如午间推荐周边快餐),新商家通过“相似商家迁移学习”获得初始流量。

3. 应用层:场景化推荐策略

系统针对不同场景定制推荐逻辑:

  • 首页推荐:基于用户长期偏好(如“减脂用户”推荐轻食),结合实时热度(如“周边爆款套餐”);
  • 搜索后推荐:根据搜索关键词(如“披萨”)扩展相关品类(意面、沙拉);
  • 订单完成页推荐:利用“用户-商家”交互数据,推荐“常点商家”或“高评分新店”。

三、效果评估:数据驱动的增长验证

系统上线后,通过AB测试验证效果,核心指标提升显著:

  • 订单转化率:推荐页订单占比从35%提升至52%;
  • 用户留存:次日留存率提高18%,7日留存率提高24%;
  • 商家收益:长尾商家曝光量增长3倍,订单量提升40%。

评估方法包括:

  • 离线评估:使用AUC、NDCG等指标验证模型排序质量;
  • 在线评估:通过分流实验对比不同策略的转化率;
  • 长周期跟踪:分析用户生命周期价值(LTV)变化。

四、可复用的实践建议

  1. 数据治理优先:建立统一的数据仓库,确保用户ID、商家ID、订单ID的贯通;
  2. 实时能力建设:部署流计算框架(如Flink),实现用户偏好秒级更新;
  3. 多目标优化:在排序模型中同时考虑GMV、用户满意度、商家公平性等目标;
  4. 冷启动方案:设计新用户/新商家的分级曝光策略,避免“冷启动陷阱”;
  5. 效果归因体系:构建从推荐曝光到订单转化的全链路监控,快速定位问题。

五、未来展望:从推荐到智能生态

百度外卖的实践表明,大数据驱动的推荐系统不仅是流量分配工具,更是业务增长的引擎。未来方向包括:

  • 深度学习应用:引入Transformer模型捕捉用户长序列行为;
  • 多模态交互:结合图片、语音等非结构化数据优化推荐;
  • 生态协同:与支付、物流等系统联动,实现全链路智能。

对于企业而言,构建类似系统需从数据基础算法能力业务理解三方面同步发力,最终实现“数据-洞察-行动”的闭环。