构建企业级推荐系统:算法、工程实现与案例分析
上QQ阅读APP看书,第一时间看更新

4.4.1 获取用户在一个时间窗口内的行为

首先Spark Streaming程序从Kafka中读取一个时间窗口(Window,一般一个时间窗口为几秒钟,时间越短实时性越好,但是对计算能力要求也越高)内的用户行为数据,我们对同一个用户U的行为做聚合,得到图4-8中间部分的用户行为列表(用户在该时间窗口中有k次行为记录)。

顺便说一下,因为是实时计算,所以用户行为数据会实时传输到Kafka中,供后续的Spark Streaming程序读取。