3.1 用户长期价值的概念和商业应用_数据科学工程实践：用户行为分析与建模、A/B实验、SQLFlow-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

3.1　用户长期价值的概念和商业应用

本节主要介绍用户长期价值的概念及它在现代商业活动中的重要地位和应用场景。

3.1.1　用户长期价值

2019年是首次公开募股（IPO）创纪录的一年，在新科技的带动下，新的经济模式造就了新的独角兽。从网约车、共享单车投入巨额补贴抢占市场，到美团、饿了么、京东新零售圈地，再到抖音、快手的短视频大战以及各大互联网巨头布局在线医疗和教育，更有随之而来的无数创业公司纷纷涌入市场。然而，这些商业模式，或者新兴的公司/部门创造了多少价值呢？数据分析师可以通过考察潜在市场，分析公司经营情况、财务情况以及过往业绩等方面进行评估，但这类方法不能准确预测公司的未来价值，因为影响公司未来价值最重要的因素—用户行为，被忽略了。

宾夕法尼亚大学沃顿商学院彼得·费德教授据此提出了基于用户行为的公司估值法。他认为，如果能预测所有用户未来的价值，并且对这个价值求和，就能对公司的整体价值进行较好的评估。具体说来，该方法有五大元素：用户获取、用户留存、用户下单、用户消费以及边际利润。运用这些元素可以对用户的长期价值进行预测，并以此对公司进行估值。费德教授在零售业、媒体行业、金融服务业、制药业应用了该方法，取得了一系列成功。现在，以用户为中心，基于用户长期价值的公司估值以及业务评估正在发挥越来越大的影响。用户长期价值这个概念在商业活动中逐渐占据不可替代的地位。

为什么用户的价值能在很大程度上决定企业的价值呢？我们知道，企业经营的最终目的是盈利，在企业的各种经营活动中，吸引新客户、增加交易规模、提高生产效率、优化用户体验等手段都是为了盈利。用户群是公司商业价值的最终来源，也在各方面指引着公司的产品设计和运营策略。大部分行业都会把用户置于一切业务运营的中心，通过建立和实施长期的用户战略，实现企业价值最大化。在精细化运营越来越重要、获客成本越来越高的互联网时代，企业会把盈利目标细化到用户维度，以此估计每个用户所能带来的价值，由此引出了用户长期价值的概念：用户的长期价值（Life-Time Value，LTV）是用户和企业所产生的交易活动所能带来的全部经济收益的总和。其中“长期”指的是用户的生命周期或较长的一段经营时间。下文我们均用LTV来指代用户长期价值。

LTV是市场营销和其他企业经营活动中非常重要的一个概念。LTV实际上是基于用户和企业关系现金流的一种货币化。不同的行业、不同的商业模式和策略之间存在着巨大的差别。但LTV提供了一把标尺，可以从统一的视角衡量不同的经营活动、部门或公司整体的商业价值。另外，因为LTV采用的是长期视角，不会被短期利益所蒙蔽，所以能较为合理地衡量企业的用户潜力。从这个角度看，LTV提供了一种将长期用户价值和短期用户价值进行比较的途径。研究用户过去的行为，便能比较准确地预测他们未来能够带来的经济收益，企业就能够更长远、更全面地做出经营决策，获得更长久和稳定的商业收益。

3.1.2　用户生命周期和用户长期价值

图3-1所示是用户在商业平台进行互动的整个生命周期，展示了所产生的价值中用户付费随时间的变化。

图3-1　用户付费曲线（上图）和典型LTV曲线（下图）

图3-1上图中，横轴代表时间，纵轴代表用户每一次付费的额度。我们可以看到，用户的整个生命周期可以分为引入期、成长期、成熟期、休眠期和流失期。

引入期：用户首次交易后，成为新客户，这一时期是用户对商品从不熟悉到熟悉的过程。
成长期：用户多次购买商品，对企业的产品、品牌等各方面逐渐熟悉，购买或使用频次逐渐增加。
成熟期：产品已经融入用户的生活，用户能够以一定频率持续复购。
休眠期：用户购买频率下降（受竞品或其他替代因素影响），逐渐进入休眠期。
流失期：用户购买频次出现大幅度下降，最终不再复购。

以上这5个时期之间并不存在明显的分界线，不同时期的持续时间和企业所处行业、运营策略、地域、用户属性有着密切关系。在整个用户生命周期中，付费曲线下的面积，就是这个用户给商家带来的货币化价值，即LTV。

3.1.3　LTV的特点

LTV具备如下两个特点。

1. 长期性

严格来讲，在用户进入流失期之前，我们是无法计算用户对商业平台的货币贡献的。只有在用户离开平台，即流失之后，才能准确计算其货币贡献，这个时间跨度可能很大，可能只有几个月，也可能需要几年。

2. 变化性

因为用户群体和企业经营策略不是一成不变的，所以LTV也会产生变化。初创企业和成熟企业采用的运营策略是不同的，处于创业阶段的企业，扩大规模往往是最重要的，所以企业需要大量获客，但并不特别在意用户的留存。对于稳定发展的大公司而言，提高用户的稳定留存、提升用户的平台价值则具有核心地位。好的产品和运营策略，可以增强用户黏性，延长LTV。

在一些行业，比如铁路、航空，存在一定程度的垄断情况，整个市场或许由一两家较大的企业占据大部分份额，用户很难离开这些企业的服务。在这种情况下，往往需要在一个时间段内考察和定义LTV。比如，我们可以把用户90天的付费总额定义为LTV90，或者半年的LTV定义为LTV180，也可以采用更久的时间去定义。这些LTV可以在相当长的一段时间内刻画用户的价值特征，从而指导企业运营。

3.1.4　LTV分析能解决的问题

LTV可以帮助我们更好地回答以下问题。

如何找出最有价值的用户？
企业怎样才能产生让用户长期喜爱和依赖的产品？
影响用户购买行为的因素都有哪些？如何更好地满足不同用户的需求？
如何制定获客预算？

建立LTV模型能够帮助我们找到客户特征和企业货币化价值之间的联系，让我们更好地了解用户，了解用户价值，并以此制定更好的运营和产品策略，更准确地命中商业运作的优化目标，创造更大的商业价值。

3.1.5　LTV的计算方法

LTV在商业分析中的地位很重要，计算LTV的方法有很多。

1. 简单算术公式

假设用户中各类人群的比例不变，如果单位时间内每个用户给平台带来的收入是R，用户在单位时间内的流失率为cr（churn rate），则：

LTV = R/cr

这个方法假定用户的人群比例是稳定不变的，这样得出的LTV实际上是一个平均值，并不能体现用户个体的差异。另外，一旦公司的运营策略发生变化，使用这种方法就会产生较大的误差。因为它实际上是一个简单的描述性模型，描述的是当前的规律，规律发生改变的时候，误差突然变大是不可避免的。这类公式可以通过引入一些变量加以修正，比如增长率、风险因子折扣、平均用户付费、活跃用户量、获客成本等。引入这些变量，就可以通过灵活的参数拟合得到较为复杂的趋势线，获得比线性拟合更好的效果。

2. 线性回归

线性回归在商业领域有着广泛的应用，可以用来计算LTV：

LTV = β0 + β1x1 + β2x2 + …

这类模型中最简单的就是纯时间序列，比如，可以采用最近几个月的用户付费作为独立变量（即忽略它们的相关性），然后预测未来一年的LTV。线性回归方法比较简单，但框架清晰，在很多时候也非常有效。如果要进一步考虑其他因素，也可以方便地加入方程中。

线性回归方法也有缺点，就是LTV本身很复杂，很难用一些简单的线性关系进行概括，因此线性回归给出的结果准确度较低。另外，若采用线性回归方法，在各变量不满足独立性的前提下，对模型进行分析和解释也是一个很大的挑战。对于这类模型，也有一些扩展，如加入一些非线性项，或使用一些基于动态参数的序列模型，在保留可解释性的同时，追求更高的准确率。这类模型能够捕捉LTV曲线影响因素中的某些周期性，并能较好地贴近一些非线性项。这类模型基于一些已知模型的组合，表达力虽然比线性模型更加丰富，但总体来说仍难以确保准确度。

3. 统计学模型

这种方法来自统计学，因为大量个体的行为往往在很大程度上符合统计规律，所以比起上面简单计算逻辑形式的方法，这种通过数据计算的方法有更大的优势。首先，这种方法得出的结果更加准确，其中的统计学参数可以在很大程度上捕捉到群体的某种共性特点。另外，这类模型能从统计学层面对一些影响因素加以解释，往往建立在一些统计假设之上，例如，较常见的BG/NBD模型就基于以下一些假设。

在活跃状态下，用户在一段时间内的交易次数呈泊松分布。
不同用户的交易率之差遵循gamma分布。
用户在每次购买后，会以p的概率变为不活跃用户。
不同用户p的差别遵循gamma分布。

在这些假设的基础上，模型能在很大范围内给出比较可靠的预测。不仅如此，由于结合了统计学的一些参数方法，对于数据量比较匮乏的场景，模型也能给出相对较好的拟合和分析。这类模型还可以进行扩展和复杂化，比如，BG/NBD模型只考虑了交易次数，并没有考虑每一次交易的价值是不同的。相应地，Gamma-Gamma模型考虑到了这一点，在某些场合可以达到更优的效果，但它仍然假设购买频次和交易价值是独立的。另外，从贝叶斯统计角度看，也有一些框架把上面的模型和用户生存概率相结合，比如Abe提出了一个“异质”的模型Hierarchical Bayesian，使用马尔可夫链蒙特卡洛方法确定一些参数，期望达到更好的效果。

4. 基于机器学习的模型

机器学习模型具有丰富的参数，且这些参数由训练确定。这种从数据中找规律的方式和前面的模型很相似，但机器学习的参数比简单的商业公式或统计模型要多得多，所以也会达到更好的计算效果。由于引入了过多参数，其可解释性会相应下降。常见的模型有基于贝叶斯结构化时间序列的动态回归，通过吉布斯采样，构造马尔可夫链，更新模型参数。

基于机器学习的模型目前还在进一步发展中，因为需要通过采样进行贝叶斯迭代，所以计算量往往非常大。

5. 基于神经网络的模型

神经网络也是机器学习的一种，但神经网络具有很多独到的特点。对于一般的机器学习任务，神经网络未必是能给出最好结果的那个，但它能处理各种各样的数据，适用性非常强，已经成为最近几年机器学习的热门领域。

神经网络已经发展出各种各样的局部结构或特定类型的网络，能够有效应用于特定领域。神经网络一般可以得到较好的准确度，但缺点在于可解释性较差，且需要大量数据进行训练。本章主要使用神经网络构建LTV模型。有关神经网络的基础知识，读者可查阅相关资料，这里限于篇幅，不再赘述。