课程介绍:
从Hadoop兴起的短短几年中,计算速度和效率已经不能适应的数据增长,从而出现了更为流行分布式计算框架,Storm和Spark, 分布式计算框架从离线计算到现在的实时计算和内存计算。Spark自从成为Apache较高级项目以来,版本更新越来越快,短短两年来就发布了十个版本,目前的版本是1.4,Spark SQL的成熟,DataFrame API出现,以及R API引入Spark,Spark的体系结构也越来越完整。技术更新越来越快,你想跟上时代的步伐,那么跟我来吧,一起学习Spark源代码导读,从代码入手,在实际的项目中能更快的解决问题,更深入的理解Spark。本课程从主要是分析Spark 1.4的源代码。
课程目录:
第1课 Spark源码概述和开发环境准备
第2课 从WordCount引发的代码入口
第3课 作业提交及执行(Stage,DAGScheduler,TaskScheduler)
第4课 分布式缓存,WEB UI和Standalone
第5课 Spark Streaming
第6课 DStream流数据处理及容错分析
第7课 Spark Streaming的实例应用
第8课 Spark SQL,DataFrame
第9课 SQL解析引擎,优化和执行引擎
第10课 Spark SQL CLi and Thrift JDBC(只有文档)
第11课 Graph计算框架
第12课 SparkR和MLlib机器学习
评论0