课程介绍:
主要由业界一线研发人员讲授大数据平台涉及到的分布式系统构架、分布式编程、分布式流处理、分布式数据存储管理、内存计算支持等内容,通过实践,力图覆盖大数据处理平台的主要核心技术,帮助学生了解分布式大数据平台设计中的关键挑战,提出实际的解决方案,为研究生未来研究方向提供参考。课程重点讲解设计原理,突出技术深度和实战性。
课程描述:
讲授分布式系统构架、分布式编程、分布式流处理、分布式数据存储管理、内存计算支持等内容,突出技术深度和实战性。
课程目录:
第一讲 大数据和ODPS
第二讲 分布式存储
第三讲 资源管理与任务调度
第四讲 分布式编程模型的设计与演化
第五讲 离线分布式关系型计算
第六讲 全局数据管理与调度
第七讲 流式计算的系统设计与实现
第八讲 内存计算
第九讲 大规模数据的分布式机器学习平台
实践1:通过两阶段提交协议完成数据上传
实践2:编写MR完成Group By+Join操作
实践3:实现MapReduce编程运行时库
评论0