洞见数据之密
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

智能推荐算法

和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的(见图6)。

图6

首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。

然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。

解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。

标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类:物品自身属性,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取人的属性,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道人和物品的交互关系,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。

这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。

当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。