阿里巴巴B2B电商算法实战
上QQ阅读APP看书,第一时间看更新

1.1 人——买家

用户增长是电商平台的核心,如今电商平台不只关心用户规模,更追求用户心智、产生交易的质量健康度,以及对目标用户群体的渗透程度,并从规模化流量运营升级为以留存转化为长期目标的精细化用户运营。从规模、质量、成本三维视角出发,一方面通过站外引流带动整体大盘增长,另一方面打造贯穿用户行为全链路的主体心智,实现目标用户牵引,提高人群转化效率。

用户增长是各子系统相互影响的庞大系统性工程,需要数据驱动,业务和技术深度合作,有策略、有重点,包括站外引流、搭建拉新全链路服务;站内主客提高转化率,各个策略交互有融合,合力构建一个长期的、有质量的、健康的增长状态,落地到各个业务场景中,营造平台整体大繁荣。

用户增长应基于基础用户客群画像,洞察买家行为意图,刻画客群偏好,沉淀B类特色的垂直集采和行家领采客群场景(见图1-1)。综合考虑买家身份偏好和地域偏好,智能化地为买家推荐具有确定性、个性化的商品,提高B类买家采购销量,从而优化场景效能。在此基础上,按照买家分布、成长、价值分层运营,针对不同用户制定不同运营目标,如对新用户做好新人承接转化,对低活和沉睡用户做促活留存,对拉新做拉新中控,对流失买家做流失预警。

为实现整体提高用户黏性、留存、活跃、转化的目标,在实现用户增长时需要思考如何服务好用户这一核心问题。以阿里巴巴B2B平台CBU主客App为例,用户打开首页,首先看到的是搜索功能及八门洞推荐。将不同的用户引导到各自感兴趣的场景,是UI设计师和算法工程师的职责。从页面交互结构设计角度考虑,底纹的作用就是猜用户意图,并启发和唤醒用户的潜意识,引导用户到达搜索场景。我们知道,目标明确的场景更容易促转化,为此,除了商品排序,算法还为用户量身打造了智能锦囊(包含“细选”锦囊、“相关推荐”锦囊、“榜单”锦囊、热词等)、八门洞及“猜你喜欢”场景,为用户提供喜欢的商品;同时向用户提供了“为你推荐”锦囊,每个锦囊展现与用户最相关的多个主题Query(意图查询词),通过点击这些主题Query可以引导用户到搜索场景,由搜索做精准意图承接。

另外,我们的技术也支持为业务提供外部引流,为平台拉取新用户,包含SEO网页引导和信息流App主客引导,并且通过消息推送平台让爆款商品和营销折扣商品触达用户,吸引用户跳转到相应场景,通过与用户保持互动,激活沉睡用户,促活低活用户。

1.1.1 开源引流

1.搜索引擎优化

搜索引擎优化(Search Engine Optimization,SEO)是生态式的自我营销,通过提高用户搜索引擎内的自然排名,从搜索引擎中获得尽可能多的免费流量。SEO流程包括:发现→抓取→解析→索引→排名(前70页→前3页→第1页→第1名)→展现→转化(见图1-2)。

图1-1 用户增长概况

图1-2 SEO流程

就SEO方法论而言,内链系统是指基于爬虫体系获取互联网网站资源,并基于文本和语义相关性构建彼此之间的跳转链接的系统,因此,优化SEO内链系统对于SEO站内优化非常重要。

为了让内链系统既能贴近当前页面的相关性,又能增加其他相关栏目的推荐,提升本类栏目收录率,SEO在技术上重新规划和落实了页面模板中内链推荐的逻辑。

SEO内链系统基础版本覆盖1688站内千万级词库,主要是基于MapReduce架构计算文本编辑距离度量相似性,将计算好的离线词典加载到引擎索引中,向用户提供在线查询服务。这种方法的缺点是内链覆盖率不足、计算效率低。千万级词库频道内推词离线计算一次需2个小时,而目前SEO词库规模数亿且要归类到十几个频道(如娱乐、体育),这些频道间互相推词的计算时间将呈指数增长,存储量也会爆炸式增长。因此,我们提出了一种新的解决方案——在线召回推荐内链系统,将所有关键词向量化,然后构建索引,具体召回机制框架如图1-3所示。核心算法技术点包括Query和商品标题分词和向量化、向量索引引擎构建、在线匹配召回。

这个新解决方案的在线召回时间是毫秒级,性能符合在线服务预期:相关性为98%、成功率为100%、覆盖率为98%,且分布均匀。爬虫量提升50%,索引量提升6倍。

2.信息流

信息流(feed流)投放由Facebook在2006年首先推出,主要指在社交媒体动态流或者资讯媒体内容流中投放图片、图文、视频等形式的广告,目的是提高广告主的ROI(拉新、促活)。在移动互联网时代,信息流投放量迎来了爆发式的增长,基本所有的大型互联网公司都会有类似的广告。对比传统广告,信息流广告有如下优势。

(1)用户友好。相比传统广告,信息流广告更容易被用户接受。传统广告在用户阅读或者操作的时候出现,容易引起用户的反感,而信息流广告的形式是将高质量的内容由系统主动推送到用户阅读的内容流中,且大多数广告都与用户相关。

图1-3 SEO内链系统召回机制框架图

(2)广告主收益高。优质媒体会根据用户画像及用户实时查看的上下文信息对用户进行精准推荐。这种投用户所好的形式,能够给广告主带来更大的ROI。

(3)广告生态良性发展。要想信息流广告效果好,广告主就必须优化自己的广告质量,让广告真正成为内容的一部分,促进整个广告行业的发展。

信息流广告的投放方式主要有媒体直投、RTB(Real Time Bidding,实时竞价)和RTA(Real Time API,实时应用接口)3种。媒体直投可以按照转化目标出价,但是主要依赖媒体的算法能力且广告主需要输出较多数据。RTB是一种实时竞价的购买方式。广告主在广告交易平台中设定广告流量底价,当有流量过来时,与其他广告主一起对流量出价,广告交易平台收到各广告主出价后进行比价,价高者获得流量并同步竞价成功的结果。这种竞价方式对广告主的数据和算法能力有较高要求,不足是无法使用媒体方的数据和算法。RTA是一种更好的竞价购买方式,它和RTB的主要区别在于,RTA可以使用媒体方的数据和算法在广告主竞价前实时进行流量判断。通过实时获取数据,广告主可以对用户进行进一步筛选,实现人群精准定向、数据赋能,有利于提升广告投放的效果。

信息流广告投放计费模式主要是CPC(Cost Per Click,点击扣费),在RTA模式下,计费模式升级为OCPC(Optimized CPC,优化点击扣费),其本质是经过优化的CPC。

阿里巴巴CBU事业部也在持续建设自己的信息流广告,目前主要通过自建DSP结合阿里巴巴集团大数据能力及不同媒体自身的数据进行RTA投放,投放渠道有广点通、小米、趣头条等。信息流广告承担着App的拉新和促活任务。

CBU信息流在今日头条投放的样例如图1-4所示。

信息流投放的核心是为用户增长服务,其目标为广告获客召回,拉新、提升App的留存和活跃用户,我们关注的最终指标为DAU(日活)和MAU(月活)。根据用户的月活,我们可以将用户分为以下几类:新用户、低活用户、中活用户、中高活用户、高活用户和沉睡用户。事实证明,高活用户对于App使用已经有了比较成熟的心智,平台即使不做任何策略也会回访;而沉睡用户有可能已经卸载App了,这种用户的召回难度太大。因此,用户增长ROI最高的还是新用户和中低活用户。这些用户处于熟悉平台的过程中,需要平台用一些策略对其进行召回和培养,提升他们的留存,防止他们变成流失用户或者沉睡用户,把他们往高活上去迁移。

图1-4 CBU信息流投放样例

下面我们从媒体渠道接入、算法能力、在线投放策略、数据监控4个角度阐述如何进行信息流投放。

(1)媒体渠道接入

要覆盖更多更全的用户,需要接入尽可能多的媒体渠道,市面上有很多媒体渠道,除了阿里巴巴Tanx,类似的还有今日头条、百度、腾讯、快手、趣头条、vivo等渠道。业务和技术需要评估不同渠道的优劣,进而指导我们确定不同媒体渠道的预算优先级。整体来说,我们会对比不同渠道下的分发流量UV、UV点击率、App唤起率/安装率、转化率及留存率,然后进行综合评估,最后确定最佳的投放组合和预算分配方案。

(2)算法能力

信息流投放会对接很多渠道,不同渠道的数据、用户群体都不一致,需要针对不同渠道进行建模。

传统的CPC广告是以每点击一次计费,然而对于不同质量的流量应有不同的价格,对于广告主而言,更好的定价方式是让出价与点击的价值更加匹配。假设我们把流量的高质量定义为在App端的转化率(CVR),报价(bidprice)就是关于转化率的函数。由于无法知道真实的CVR,我们通常采用机器学习方法得到预估转化率(PCVR)。

但是,对于一个高质量的流量,出价也是有限度的。这里需要对广告投放的收益进行定义,一般称之为ROI。通常一个广告的点击ROI可以定义为:

其中,pa表示用户进入App后购买商品的单价,nu表示点击次数,ba表示单次点击消耗,p(c|u,a)表示转化率。

商品的价格对同一个广告而言一般为一个定值,所以影响ROI的两个重要因素就是转化率p(c|u,a)和出价ba,我们假设转化率p(c|u,a)与出价ba的比值为定值。那么对于一个广告的出价:

变换一下得到:

其中,Ba为OCPC调整后的出价,ba为广告的原始出价,p(c|u,a)为实时预测的广告的转化率,E(p(c|u,a))为历史统计的转化率的平均值。

(3)在线投放策略

在线投放策略主要包括素材投放、频次控制、预算平滑控制3部分。

1)素材投放

一个在线广告可能会有多个素材,我们需要在线实时选择最佳素材进行投放。主流的解决方案分为随机投放和赛马策略两种。随机投放的优点是实现简单、接入快速,缺点是无法获得最大化收益(点击)。赛马策略的核心思想是给点击率高的素材更多曝光,给点击率低的素材较少曝光或者无曝光,这是典型的EE问题(Exploration and Exploitation)。我们使用Bandit算法来进行探索,汤普森采样是其中一种常用的实现方式,算法流程如下:

其中,θ=(θ12,…,θk)表示符合贝塔分布的收益,rt表示观察到的真实收益。

2)频次控制

频次控制从投放效率和疲劳度两个角度出发,主要解决如下问题:已向同一个用户展现过多广告,就没有必要重复投放了;当天点击过该广告的用户,为防止其疲劳,不再对其进行投放;当天打开过CBU主客App的用户,没有必要对其进行投放。

3)预算平滑控制

预算平滑控制主要是为了防止每天的广告预算消耗过快或者过慢,常用的策略有以下几种。

·平均投放:把预算按一天24小时平均切割。这种方案没有考虑流量大小和转化效率,会出现某个时间段的预算很快花完或者某个时间段预算花不出去的情况。

·按流量投放:根据历史流量和实时流量,对预算进行实时修正,使之满足在流量大的时候预算高、流量小的时候预算低。这种方案比第一种方案合理,但是也有缺陷,因为我们投放时最关注的其实是流量的ROI。

·按流量效率投放:根据历史流量效率和实时流量效率来进行预算分配。这种方案的优点在于可以最大化预算收益。

(4)数据监控

数据监控的目的是了解整体投放漏斗的效率、及时发现并修复投放问题。整体流量的链路为:媒体下放量→参与竞价量→竞价成功量→展现量→点击量→唤起/安装App量→转化量→留存。通过这一整条数据漏斗,可以清晰地知道每个媒体能给平台带来多少收益,并且对于不同的链路,我们可以有相应的优化措施。

·参与竞价量主要是告诉我们每天报价多少次,代表整个广告的基数。

·竞价成功量与多个因素有关,主要包括两个因素:出价是否合适;出价延时。一般不同的媒体会有自己不同的竞价最高延时限制,竞价延时过高可能会导致出价失败。

·点击量不仅与算法推荐的准确率有关,同时也与推荐的素材有关,比如图片、标题、内容是否吸引人等。

·留存则更多与用户在App上的体验及获得的权益有关。

3.拉新中控

目前国内各种应用市场、信息流渠道百花齐放,是各用户增长团队引流的主要渠道,也成为各个App争夺新用户的重要战场。广告主在第三方渠道投入一部分费用,设置相应的出价,便能够获取一定的曝光和点击,从而赢得装机用户。以小米渠道为例,CBU能够获取装机量的途径如图1-5所示。

图1-5 小米渠道装机量途径示例

在同一渠道下,加大预算投入有机会赢得更多的装机量,但是显而易见的是,这种正向效果是有上限的,并且随着边际效应逐渐递减,预算与装机量关系将不成正比,同时高预算下获取的用户质量也会相对较低(我们不妨用登录率和留存率来表示用户质量)。另外,不同渠道用户心智不同,回报效果也不同。因此,如何在总预算限制下分配在各个渠道的预算,在保证用户质量的同时获取更高的装机量,是实现用户增长时需要考虑的重要问题。以往预算分配方案主要依靠经验,人工制定,而一套智能、稳定的推荐辅助系统可以取得更佳的引流效果,并可提升投放效率、节省人力资源。

(1)拉新思路与挑战

用向量X表示在各个渠道的预算投入,B表示总预算,T1表示登录率下界,T2表示留存率下界,f(X)、g(X)和h(X)分别代表在预算X下的装机量、登录率和留存率,则整体问题可以建模为一个全局优化问题:

为了求得上述问题的最优解,我们需要明确f(X)、g(X)和h(X)的具体含义。各渠道间的相互影响可以忽略不计,因此也就只需要获取各渠道在给定预算下所能得到的装机量、登录量和留存量的数学关系。

同样以小米为例,它包含的非自然流量来源包括搜索广告、精品推荐、排行榜、红包专场、信息流、Banner、视频前贴、应用分发等,这些我们统称为投放位。一个渠道有多个投放位,因此渠道的预算需要进一步拆解:每个投放位都要设置预算和相应出价。

梳理一下某投放位的预算投入装机数量、质量产出的完整流程:在投放位的出价得到曝光,曝光会转化为点击,从而获得装机量;装机之后通过监测登录量、留存量,获取质量信息。在点击付费的模式下,预算实际上近似于出价与点击量的乘积。整个流程如图1-6所示。

图1-6 预算投入产出流程图

一种很自然的想法是直接建模出价与装机量、登录量和留存量的关系。然而,曝光、点击行为的数据记录在第三方渠道,装机行为的数据记录在1688平台,而数据并没有且不太可能完全打通,所以我们只能粗略地获取用户装机来自哪一个渠道的数据,而无法细化到投放位。所以,在这种数据追溯缺失的情况下,直接建模的方式是行不通的。

在第三方渠道的投放位的曝光和点击数据是我们可以获取并加以运用的,因此,为了获取装机量、登录量和留存量与预算间的关系,我们需要一些细致的数据分析和合理的假设逐步建模,包括点击量与装机量、登录量、留存量的关系,出价与点击量的关系,以及如何进行预算分配。后续章节将介绍相应的模型与算法。

(2)拉新建模方法

1)点击量与装机量、登录量、留存量关系模型

虽然投放位粒度的点击到装机的数据无法在全渠道获取,但幸运的是,我们积累了一批在某渠道只投入过一个投放位的历史数据,也就是说,该投放位的点击和装机、登录、留存信息是可以完全获取到的,所以我们可以从中发现它们之间的规律。点击量业务指标定性关系如图1-7所示。

图1-7 点击量业务指标定性关系图

由定性关系图可以看出,投放位点击量与装机量、登录量、留存量呈非常强的线性关系。基于我们的分析,图1-7中的斜率实际上反映了一个投放位的固有质量属性,由此可以进一步将这种线性关系推广到每一个渠道的投放位,我们可以对每个渠道做线性回归,如图1-8所示。

其中,参数θ表示投放位的固有属性,截距b可以理解为渠道的自然装机量,数据x、y都可以从第三方渠道或者1688平台获取。同理,点击量—登录量、点击量—留存量的关系也可以通过类似方法进行建模。

最后,为了验证这一模型,我们在2个渠道上进行拟合测试获得仿真数据,如图1-9所示,横坐标表示时间(天),纵坐标表示该渠道某天的装机量,表明该模型的有效性(隐去了坐标轴数据)。

图1-8 点击与目标行为建模关系示意图

图1-9 装机量趋势图

2)出价模型

在分析出价—点击量关系之前,先分析曝光量—点击量的关系,它实际上是点击率(点击量/曝光量)的体现。图1-10所示为某投放位上二者的关系。

由图1-10可以看出,它们也呈现一个比较强的线性关系。也就是说,点击率相对稳定,其实这从侧面反映了CBU主客App自身的质量。因此我们认为每个投放位点击量与曝光量均成正比。而在出价—曝光概率关系中,我们试图采用如下公式表示:

图1-10 曝光量—点击量相关图

在点击量与曝光量成正比的假设下,出价—点击量的关系满足:

然而,由于一些原因,我们的历史出价数据并不丰富,因此很难完美拟合出上述公式的曲线(见图1-11a)。于是我们采取了线性假设以及Boxing的方式处理,即假设出价—点击量关系在某个小区间内满足y=kx,如图1-11b所示。另外,按点击付费的模式可知,预算可以通过出价(x)乘以点击量(kx)计算,其表达式为g=kx2

图1-11 出价—点击量相关图

3)预算分配模型

根据以上分析,预算与装机量、登录率、留存率的关系逐渐明朗,在利用上述方法求得各投放位的系数后,我们可以通过解析表达式展示上文的全局优化模型,即

其中,xi表示第i个投放位的出价。

用一些符号简化以上模型:

这是一个特殊的带二次约束的二次规划问题,可以通过KKT条件和对偶问题求得最优解。对偶问题为:

利用梯度下降即可求得对偶变量的最优值。KKT条件则刻画了xi与对偶变量的关系:

利用该式可得到原问题的解。

(3)小结

在实践中,尤其是在与第三方的合作过程中,经常会由于各种数据原因,不能很顺利地直接建立想要的模型。但是我们仍可以通过一些细致的数据分析和逻辑梳理,抽丝剥茧,达到目的。

4.个性化消息推送

在过去很长一段时间里,因为电商本身的强运营特性,个性化推送大部分时候是作为一个活动通知的通道来运营,对重要活动进行通投引流。然而在整个新零售和数字化营销改造的趋势下,我们希望它也能具备精细化用户运营和千人千面内容投放的能力。

于是从2019年下半年开始,CBU技术部全面发起整个个性化推送的平台产品、技术架构和算法的升级改造计划,使其能够承担起个性化营销、用户促活和业务导流等多种角色。

主体的投放流量经历了从通投到定投、从劳动密集型到智能自动化投放的转变,目前的主要流量已经从定投切换到了个性化投放。对个性化投放而言,可以从本质上释放算法的千人千面能力,以最高的效率来为用户推送相关度更高和用户更感兴趣的内容。

个性化推送智能触达用户,整体概况如图1-12所示。电商以场景为介质,承载用户和商家商品的交互,基于此推送以场景商品为基础,匹配和召回对商品感兴趣的用户,即以品圈人,以更好地触达用户,提升用户的心智。对召回用户分配最感兴趣的商品,提供人货精准匹配,形成智能化文案内容,以更高概率命中用户心智。

整体流程从场景搭建数据流系统到以品圈人、人货匹配对接数据系统,形成管道输出到推送平台分发,最终触达用户。为避免打扰到用户,设置推送频率,避免用户感知疲劳;在有效分发的前提下,更精准的匹配为用户带来更有价值的信息,引导更多高价值用户到电商平台。

链路完全智能化,无须人工参与,每天为业务推送数百万条信息,承接着同用户活跃交互、为用户带去更多资讯、为场景导入流量的使命。

图1-12 个性化推送框架

1.1.2 客群画像

阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时,客群矩阵也是用户增长和算法特征的核心数据。鉴于客群矩阵如此重要且拥有诸多应用,其构建迫在眉睫。

阿里巴巴意在将客群矩阵打造成平台的一个风向标,以便业务有目标、有层次、有差异、高效地选品和进行场景运营及商家运营,为用户增长和算法模型优化提供动力,为数字化运营提供依据。我们主要围绕人、货、场、商4个维度构建,客群矩阵概况如图1-13所示。

客群矩阵同场景矩阵叠加,在构建场景目标用户、衡量场景差异性的同时,也能提高场景效能,有效引导目标流量,进而为各类业务场景的算法建模提供底层数据基础。

图1-13 客群矩阵概况

1.采购力

B类买家不像C类买家有明确的年龄、性别等基础坐标维度,B类用户多是企业或者批发商,如何刻画B类特色的客群矩阵,这对于B类电商非常重要,也是B类电商“小二”一直在思考的问题。

既然B类用户群体主要是企业和批发商,那么如何准确地描述客群矩阵呢?采购力就是突出的表征,采购力包含采购金额和采购频率,从采购力可以看出用户的经营规模和消耗能力。因此,我们将采购力作为基础坐标维度,分层提供精准差异化服务。

采购金额主要是一定周期内用户采购的金额。为了规避不同品类价格差异较大带来的分层干扰,首先分类目对采购金额划档,然后再按照金额档不分类目看,占比最多的金额档就是此用户的采购金额档层。

采购频率是一定周期内用户的采购频次。将用户按照采购时间排序,然后计算用户在一定时间周期内采购的频次。将所有用户按照高斯分布比例划分出高、中、低档,作为采购频率的分层档次。

2.生命周期

无论是To B还是To C,所有电商用户都有一定的生命周期,包括新装机、新用户、低活、中活、中高活、高活、沉睡、流失等阶段,该生命周期主要是按照用户在电商平台的活跃度来划分的,其中也融入了部分业务知识。例如,新装机用户是指刚装机的用户,新用户是指成交在2单以内的用户,低活是指一个月访问天数在2天以内的用户等。

从交易周期分析用户生命周期,如图1-14所示,包括新装机激活用户、登录用户、首单用户、活跃买家(高采购力买家、潜力买家)、潜睡买家、深睡买家等阶段,各个生命周期阶段之间的转换关系在图中也有直观呈现。精准化用户运营根据买家生命周期阶段不同而调整目标,所采取的策略也会相应调整。

图1-14 用户生命周期

了解了用户生命周期,就可以有针对性地做用户拉新、促活、留存,以提高用户黏性:对于新装机和新用户,主要是提高他们的用户体验,培养用户的消费习惯,做留存转化;对于中低活用户,主要是促活、留存;对于中高活用户,主要是维持用户的习惯,加强黏性;对于沉睡和流失用户,主要是通过红包权益等方式促活。用户生命周期的维护对于电商持续用户增长发挥着至关重要的作用。

3.核心主营

CBU作为B2B电商平台的典型代表,一直致力于服务全球亿万B类买家用户。用户核实身份与主营类目(如进口母婴店店主、精品女装店店主、微商兼职、小超市店主等)作为B类用户画像最为核心的属性之一,不仅代表着用户的线下实体身份,还直接影响着用户在电商平台上的行为偏好、采购周期及对商家服务能力的诉求等,因此一直是B类电商平台致力于深耕与运营的核心用户画像属性之一。

大多数C类用户画像属性可以直接基于用户在网站上的历史行为进行建模,但B类用户画像则不同。因为要核实用户核身身份以及对主营类目有精准性的要求,一般B类电商平台主要以用户自填表单的形式进行用户核实身份的确定。这种用户自填方式结果准确度较高,但位置隐蔽、链路冗长、没有利益点的引导,不仅用户填写率低,而且与场景结合力不足。

为解决原表单式核身用户操作成本高的问题,阿里巴巴CBU电商平台通过用户核身组件借力算法模型对用户核身进行预测,依据置信度排序,为用户推出Top K个选项供用户点选。整体算法解决方案如下。

(1)数据源

1)用户站内行为

用户站内行为是用户需求与偏好的第一反馈基地,是算法需要着重去挖掘的数据源。相对其他偏好类画像属性来说,用户核身是一个相对稳定和长期的用户属性,因此在算法应用中,我们选取了用户最近半年的站内全域行为作为底层数据。定义半年的长时间窗口选取主要有两方面考虑:一是目前网站商品丰富、优质,搜索与推荐算法日渐精进,用户浏览各类商品的成本较低,所以B类用户在网站上的注意力难以保持专注,用户B类/C类的需求与行为混杂,数据较脏,较长的时间窗口有利于滤除干扰,捕获用户更为长期和稳定的需求;二是用户行为数据,特别是采购行为,相对稀疏,然而B类用户的采购行为是反映用户核身身份最为核心的特征之一,且用户采购行为又具有一定的周期性,因此长期的时间窗口能够帮助算法更加全面地认识用户。

2)用户站外上下游身份

不同于很多偏好类用户画像属性,用户核身身份能够与用户在现实中的身份产生真实的映射关系,如奶茶店店主—喜茶店主、烘焙店店主—宝岛金典店主、精品女装店店主—淘宝女装店店主等。因此,用户站外上下游的身份映射关系,能够辅助我们进一步完善用户核身身份的预测,提高覆盖率和准确率。

3)行业知识

鉴于用户在网站上B类/C类行为混杂,噪声较多,B类用户核身偏好易受网站热门类目与商品的干扰,因此我们也引入了大量行业知识作为指导来协助完成B类用户核身身份的预测,并基于此沉淀下来一份核身偏好类目数据。

(2)算法方案

利用以上用户站内行为、站外上下游身份和行业知识的数据,算法端可以通过以下几个步骤实现用户核身身份的预测工作,预测流程如图1-15所示。

图1-15 用户核身预测流程图

1)种子用户圈选

种子用户主要定义为站内已核身用户及站外上下游有映射关系的核身信息的用户。

2)行业知识指导

我们基于种子用户最近一段时间的站内行为数据,挖掘识别显著性特征,提供给运营同事,对种子用户再进行一轮划拨,把日常核心行为与行业偏好明显不符合的用户排除,优化种子用户的圈选。

3)种子商品圈选

以行业偏好类目作为门槛,筛选出种子用户在门槛下最近半年内采购过的商品作为种子商品。

4)种子商品扩展

基于团队沉淀现有商品的I2I表,利用种子商品作为trigger触发Key,对种子商品进行扩展,扩展种子商品的偏好分等于商品I2I相似分与trigger种子商品偏好分的乘积。

5)用户核身预测

对于一个用户的核身预测,我们选取其最近半年的行为数据进行建模打分。然后基于打好分的用户行为商品计算用户对每一个可能的核身身份的偏好置信度,并用以区分用户的个人采购行为和B类采购行为,降低用户的个人采购行为对预测结果的影响,加大用户的B类采购行为的权重。