1.1 通过RDD实战电影点评系统入门及源码阅读_Spark大数据商业实战三部曲：内核解密|商业案例|性能调优-QQ阅读中文轻小说网

上QQ阅读APP看书，第一时间看更新

1.1　通过RDD实战电影点评系统入门及源码阅读

日常的数据来源有很多渠道，如网络爬虫、网页埋点、系统日志等。下面的案例中使用的是用户观看电影和点评电影的行为数据，数据来源于网络上的公开数据，共有3个数据文件：uers.dat、ratings.dat和movies.dat。

其中，uers.dat的格式如下：

1.  UserID::Gender::Age::Occupation::Zip-code

这个文件里共有6040个用户的信息，每行中用“::”隔开的详细信息包括ID、性别（F、M分别表示女性、男性）、年龄（使用7个年龄段标记）、职业和邮编。

ratings.dat的格式如下：

1.  UserID::MovieID::Rating::Timestamp

这个文件记录的是评分信息，即用户ID、电影ID、评分（满分是5分）和时间戳。

movies.dat的格式如下：

1.  MovieID::Title::Genres

这个文件记录的是电影信息，即电影ID、电影名称和电影类型。

1.1.1　Spark核心概念图解

进入到案例实战前，首先来看几个至关重要的概念，这些概念承载着Spark集群运转和程序运行的重要使命。Spark运行架构图如图1-1所示。

Master（图1-1中的Cluster Manager）：就像Hadoop有NameNode和DataNode一样，Spark有Master和Worker。Master是集群的领导者，负责管理集群资源，接收Client提交的作业，以及向Worker发送命令。

Worker（图1-1中的Worker Node）：集群中的Worker，执行Master发送的指令，来具体分配资源，并在这些资源中执行任务。

Driver：一个Spark作业运行时会启动一个Driver进程，也是作业的主进程，负责作业的解析、生成Stage，并调度Task到Executor上。

Executor：真正执行作业的地方。Executor分布在集群中的Worker上，每个Executor接收Driver的命令来加载和运行Task，一个Executor可以执行一到多个Task。

图1-1　Spark运行架构图

SparkContext：是程序运行调度的核心，由高层调度器DAGScheduler划分程序的每个阶段，底层调度器TaskScheduler划分每个阶段的具体任务。SchedulerBackend管理整个集群中为正在运行的程序分配的计算资源Executor。

DAGScheduler：负责高层调度，划分stage并生成程序运行的有向无环图。

TaskScheduler：负责具体stage内部的底层调度，具体task的调度、容错等。

Job：（正在执行的叫ActiveJob）是Top-level的工作单位，每个Action算子都会触发一次Job，一个Job可能包含一个或多个Stage。

Stage：是用来计算中间结果的Tasksets。Tasksets中的Task逻辑对于同一个RDD内的不同partition都一样。Stage在Shuffle的地方产生，此时下一个Stage要用到上一个Stage的全部数据，所以要等到上一个Stage全部执行完才能开始。Stage有两种：ShuffleMapStage和ResultStage，除了最后一个Stage是ResultStage外，其他Stage都是ShuffleMapStage。ShuffleMapStage会产生中间结果，以文件的方式保存在集群里，Stage经常被不同的Job共享，前提是这些Job重用了同一个RDD。

Task：任务执行的工作单位，每个Task会被发送到一个节点上，每个Task对应RDD的一个partition。

RDD：是不可变的、Lazy级别的、粗粒度的（数据集级别的而不是单个数据级别的）数据集合，包含了一个或多个数据分片，即partition。

另外，Spark程序中有两种级别的算子：Transformation和Action。Transformation算子会由DAGScheduler划分到pipeline中，是Lazy级别的不会触发任务的执行；Action算子会触发Job来执行pipeline中的运算。

介绍完上面的关键概念，下面开始进入到程序编写阶段。

首先写好Spark程序的固定框架，以便于在处理和分析数据的时候专注于业务逻辑本身。

创建一个Scala的object类，在main方法中配置SparkConf和SparkContext，这里指定程序在本地运行，并且把程序名字设置为“RDD_Movie_Users_Analyzer”。

RDD_Movie_Users_Analyzer代码如下。

1.   val conf = new SparkConf().setMaster("local[*]")
2.  .setAppName("RDD_Movie_Users_Analyzer")
3.   /**
    *Spark 2.0    引入 SparkSession    封装了  SparkContext    和 SQLContext，并且会在
    *builder的getOrCreate方法中判断是否有符合要求的SparkSession存在，有则使用，
    *没有则进行创建
    */
4.  val spark = SparkSession.builder.config(conf).getOrCreate()
5.  //获取SparkSession的SparkContext
6.  val sc = spark.sparkContext
7.  //把Spark程序运行时的日志设置为warn级别，以方便查看运行结果
8.  sc.setLogLevel("warn")
9.  //把用到的数据加载进来转换为RDD，此时使用sc.textFile并不会读取文件，而是标记了有
    //这个操作，遇到Action级别算子时才会真正去读取文件
10. val usersRDD = sc.textFile(dataPath + "users.dat")
11. val moviesRDD = sc.textFile(dataPath + "movies.dat")
12. val ratingsRDD = sc.textFile(dataPath + "ratings.dat")
13. /**具体数据处理的业务逻辑*/
14. //最后关闭SparkSession
15. spark.stop

1.1.2　通过RDD实战电影点评系统案例

首先我们来写一个案例计算，并打印出所有电影中评分最高的前10个电影名和平均评分。

第一步：从ratingsRDD中取出MovieID和rating，从moviesRDD中取出MovieID和Name，如果后面的代码重复使用这些数据，则可以把它们缓存起来。首先把使用map算子上面的RDD中的每一个元素（即文件中的每一行）以“：：”为分隔符进行拆分，然后再使用map算子从拆分后得到的数组中取出需要用到的元素，并把得到的RDD缓存起来。

1.  println("所有电影中平均得分最高（口碑最好）的电影:")
2.  val movieInfo = moviesRDD.map(_.split("::")).map(x => (x(0), x(1))).cache()
3.  val ratings = ratingsRDD.map(_.split("::"))
4.  .map(x => (x(0), x(1), x(2))).cache()

第二步：从ratings的数据中使用map算子获取到形如（movieID,(rating,1)）格式的RDD，然后使用reduceByKey把每个电影的总评分以及点评人数算出来。

1.  val moviesAndRatings = ratings.map(x => (x._2, (x._3.toDouble, 1)))
2.        .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

此时得到的RDD格式为（movieID,(Sum(ratings),Count(ratings))）。

第三步：把每个电影的Sum(ratings)和Count(ratings)相除，得到包含了电影ID和平均评分的RDD：

1.  val avgRatings= moviesAndRatings.map(x => (x._1,x._2._1.toDouble / x._2._2))

第四步：把avgRatings与movieInfo通过关键字（key）连接到一起，得到形如（movieID, (MovieName,AvgRating)）的RDD，然后格式化为（AvgRating,MovieName），并按照key（也就是平均评分）降序排列，最终取出前10个并打印出来。

1.  avgRatings.join(movieInfo).map(item => (item._2._1,item._2._2))
2.        .sortByKey(false).take(10)
3.        .foreach(record => println(record._2+"评分为："+record._1))

评分最高电影运行结果如图1-2所示。

图1-2　评分最高电影运行结果

接下来我们来看另外一个功能的实现：分析最受男性喜爱的电影Top10和最受女性喜爱的电影Top10。

首先来分析一下：单从ratings中无法计算出最受男性或者女性喜爱的电影Top10，因为该RDD中没有Gender信息，如果需要使用Gender信息进行Gender的分类，此时一定需要聚合。当然，我们力求聚合使用的是mapjoin（分布式计算的一大痛点是数据倾斜，map端的join一定不会数据倾斜），这里是否可使用mapjoin？不可以，因为map端的join是使用broadcast把相对小得多的变量广播出去，这样可以减少一次shuffle，这里，用户的数据非常多，所以要使用正常的join。

1.   Val usersGender = usersRDD.map(_.split("::")).map(x => (x(0), x(1)))
2.  val genderRatings = ratings.map(x => (x._1, (x._1, x._2, x._3)))
3.  .join(usersGender).cache()
4.  genderRatings.take(10).foreach(println)

使用join连接ratings和users之后，对分别过滤出男性和女性的记录进行处理：

1.  val maleFilteredRatings = genderRatings
2.  .filter(x => x._2._2.equals("M")).map(x => x._2._1)
3.  val femaleFilteredRatings = genderRatings
4.  .filter(x => x._2._2.equals("F")).map(x => x._2._1)

接下来对两个RDD进行处理，处理逻辑和上面的案例相同，最终打印出来的结果分别如图1-3和图1-4所示：

所有电影中最受男性喜爱的电影Top10业务代码如下。所有电影中最受女性喜爱的电影Top10业务代码如下。

1.   println("所有电影中最受男性喜爱的电影Top10:")
2.  maleFilteredRatings.map(x => (x._2, (x._3.toDouble, 1)))
3.    .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))
4.  .map(x => (x._1,x._2._1.toDouble / x._2._2))
5.  .join(movieInfo)
6.  .map(item => (item._2._1,item._2._2))
7.  .sortByKey(false) .take(10)
8.  .foreach(record => println(record._2+"评分为："+record._1))

图1-3　最受男性喜爱的电影运行结果

1.   println("所有电影中最受女性喜爱的电影Top10:")
2.  femaleFilteredRatings.map(x => (x._2, (x._3.toDouble, 1)))
3.    .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))
4.  .map(x => (x._1,x._2._1.toDouble / x._2._2)) .join(movieInfo)
5.  .map(item => (item._2._1,item._2._2)).sortByKey(false) .take(10)
6.  .foreach(record => println(record._2+"评分为："+record._1))

图1-4　最受女性喜爱的电影运行结果

在现实业务场景中，二次排序非常重要，并且经常遇到。下面来模拟一下这些场景，实现对电影评分数据进行二次排序，以Timestamp和Rating两个维度降序排列，值得一提的是，Java版本的二次排序代码非常烦琐，而使用Scala实现就会很简捷，首先我们需要一个继承自Ordered和Serializable的类。

1.   class SecondarySortKey(val first: Double, val second: Double)
2.  extends Ordered[SecondarySortKey] with Serializable {
3.  //在这个类中重写compare方法
4.  override def compare(other: SecondarySortKey): Int = {
5.  //既然是二次排序，那么首先要判断第一个排序字段是否相等，如果不相等，就直接排序
6.  if (this.first - other.first != 0) {
7.        (this.first - other.first).toInt
8.      } else {
9.       //如果第一个字段相等，则比较第二个字段，若想实现多次排序，也可以按照这个模式继
         //续比较下去
10.       if (this.second - other.second > 0) {
11.         Math.ceil(this.second - other.second).toInt
12.       } else if (this.second - other.second < 0) {
13.         Math.floor(this.second - other.second).toInt
14.       } else {
15.         (this.second - other.second).toInt
16.       }
17.     }
18.   }
19. }

然后再把RDD的每条记录里想要排序的字段封装到上面定义的类中作为key，把该条记录整体作为value。

1.    println("对电影评分数据以Timestamp和Rating两个维度进行二次降序排列:")
2.  val pairWithSortkey = ratingsRDD.map(line => {
3.        val splited = line.split("::")
4.        (new SecondarySortKey(splited(3).toDouble, splited(2).toDouble), line)
5.      })
6.  //直接调用sortByKey，此时会按照之前实现的compare方法排序
7.  val sorted = pairWithSortkey.sortByKey(false)
8.
9.  val sortedResult = sorted.map(sortedline => sortedline._2)
10. sortedResult.take(10).foreach(println)

取出排序后的RDD的value，此时这些记录已经是按照时间戳和评分排好序的，最终打印出的结果如图1-5所示，从图中可以看到已经按照timestamp和评分降序排列了。

图1-5　电影系统二次排序运行结果