Hadoop这个开源产品的出现,打破了对数据力量的压制。Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene,而Lucene则来源于对Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想来源于Goolge对Page rank的计算方法,HBase模仿的是Big Table,Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁,但在Hadoop身上得到了完美的重生和发展。
具有Linux操作一般知识(因为hadoop在linux下跑),对Java有一小点认识,对Hadoop及其子系统有兴趣的IT人或学习者。
课程目录:
第1课 Hadoop的源起与体系介绍;实施Hadoop集群;CDH家族
第2课 分布式文件系统HDFS原理与操作,HDFS API编程;2.x下HDFS新特性,高可用,联邦,快照
第3课 具有全部新特性的2.x企业级集群实施
第4课 Map-Reduce原理、体系架构和工作机制,eclipse与Hadoop集群连接,使用maven
第5课 Map-Reduce编程实战,日志分析
第6课 Map-Reduce复杂应用案例,Hadoop流
第7课 新一代计算框架YARN
第8课 Pig原理,部署与Pig Latin语言,应用案例
第9课 Hive体系架构、安装与HiveQL
第10课 Hive应用案例,impala子项目
第11课 Zookeeper与分布式系统开发
第12课 HBase体系架构,集群部署,管理
第13课 HBase数据模型,实战案例建模剖析
第14课 据集成Sqoop,Flume,Chukwa,商业数据库与Hadoop集群的连接
第15课 与应用连接,REST和Thrift接口,UDF实战,RHadoop,数据分析软件与Hadoop集群的连接
第16课进军Hadoop源代码
第17课 Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习
评论0