2.1 生存分析与二手车定价案例
本节我们以二手车定价为例,重点说明使用生存分析方法的原因。
2.1.1 二手车定价背景
假设有一个自营二手车在线销售平台,采用“自采自销”的运营模式,其业务流程可以简化为以下几个步骤。
- 向市场收购二手车并采集相关信息。
- 租赁仓储服务,运输、存放及维护已购入的二手车。
- 人工定价并在自营平台发布车辆出售信息。
- 运营人员基于销售情况对出售价格做相应的调整。
- 用户订购,车辆售出。
业务流程及相关信息如图2-1所示。
图2-1 二手车业务流程及相关信息
目前,由于人工定价的效率过低且准确度不足,经常出现定价偏高或偏低的情况,需要对价格进行二次调整。因此,平台希望以“毛利最大化”为原则,通过建模分析找到最优定价策略并实现自动化定价。其中,毛利(Profit)等于主营业务收入(Revenue)减去主营业务成本(Cost),公式如下。
Profit = Revenue − Cost
该平台的主营业务收入及主营业务成本构成如下。
- 主营业务成本:包括收购、仓储及维护成本,其中仓储及维护成本与车辆库存存放的时长呈线性正相关。
- 主营业务收入:二手车销售收入。
假设二手车的定价为p,每辆车的收购成本为Cp,每日每辆二手车的仓储及维护成本为Cs,用dt表示平均存放时长,一般情况下,价格越高存放时间越长,则每辆二手车销售收入可以表示为
Revenue(p)=p
每辆二手车主营业务成本可以表示为
其中,P(t,p)代表在价格等于p的条件下,车辆存放到第t日仍然没有卖出去的概率。因此,每辆二手车利润可以表示为价格的函数:
可见,在最优价格求解的过程中有两个核心点:第一,求解在不同价格水平下,具备不同信息参数的二手车随时间连续变化的留存(未被出售)概率曲线,进而得出随时间推移,车辆消耗的成本;第二,基于毛利最大化原则寻找最优价格。
2.1.2 为什么不选择一般回归模型
已知问题核心在于求解二手车随时间连续变化的留存概率曲线,而一般的回归模型,如逻辑斯蒂回归(Logistics Regression)模型、线性回归(Linear Regression)模型或分类模型,如决策树(Decision Tree)等处理的均是截面数据,模型输出结果是特定时间截面下的事件发生概率,为了有效产出分析结果,一种操作方式是给定观察时间窗(如一周、一个月等),在观察时间窗结束时,用户的行为可以划分为已购买和未购买两类,通过模型分析用户在不同价格及车辆信息下购买的概率,进而求解最优价格,但是这样做存在如下两个不足。
- 由于无法有效处理连续时间信息,导致分析效率低,且无法精细反映车辆留存概率与时间的关系,定价精准度受限。
- 如果在观察时间窗途中调价,将影响车辆出售概率,难以分析调价对于出售概率的影响(只选择调价前或调价后的样本作为分析对象均可能丢失价格信息)。
2.1.3 为什么选择生存分析
与只关注事件结果的模型不同,生存分析既关注事件结果又关注结果发生时间。既研究结果影响因素,又研究影响因素与结果出现时间长短之间的关系,是研究生存现象(事件结果)和发生时间关系及统计规律的一门学科。
与一般回归模型相比,生存分析具备以下两点优势。
- 将结果发生的时间因素纳入分析框架,能够有效刻画事件结果随时间变化的规律。
- 通过对这类观测数据进行特殊处理,可以充分利用数据提供的不完全信息,应对数据丢失及变化。
生存分析可应用于任何与时间有关的行为(事件)分析中,包括病人的治愈情况、辖区婚姻持续情况、某产品出现故障的情况等。在二手车定价案例中,套用生存分析框架,我们可以有效解决中途调价的问题,并能刻画车辆留存随时间变化的情况,实现最优自动化定价。
接下来将结合案例向大家介绍生存分析的理论框架及Python代码实践。