首先Spark Streaming程序从Kafka中读取一个时间窗口(Window,一般一个时间窗口为几秒钟,时间越短实时性越好,但是对计算能力要求也越高)内的用户行为数据,我们对同一个用户U的行为做聚合,得到图4-8中间部分的用户行为列表(用户在该时间窗口中有k次行为记录)。
顺便说一下,因为是实时计算,所以用户行为数据会实时传输到Kafka中,供后续的Spark Streaming程序读取。