课程介绍:
这是一门培养专业爬虫工程师的课程。本课程以大数据业务需求为导向,旨在掌握分布式爬虫的原理、理解互联网技术和各类数据分析挖掘的应用技巧。
学习对象:
1. 想要成为爬虫工程师、数据工程师的学习者
2. 网站后台及分布式系统架构的开发者和学习者
3. 爬虫系统项目经理、技术经理和架构师
4. 希望搭建聚合类、数据挖掘类、图片视频库等网站的爱好者、从业者
5. 有网络爬虫需求的开发者
课程目录:
第一课_静态网页爬虫:爬虫的基础技术.flv
第二课_登录及动态网页的抓取.flv
第三课_微博的抓取.flv
第四课_多线程与多进程的爬虫.flv
第五课 微博数据的存储:分布式数据库及应用.flv
第六课_多机并行的微博抓取:分布式系统设计.flv
第七课_应对反爬虫的策略.flv
第八课_分布式系统的高可用与高并发处理.flv
第九课_日志系统、以及基于Page Rank的顺序调整.flv
第十课_日志、守护线程以及验证码处理.flv
第十一课_分布式数据库架构分析、优化及要点.flv
第十二课_自动摘要及正文抽取.flv
第十三课_网页分类与针对文本的机器学习应用.flv
第十四课_信息检索、搜索引擎原理及应用.flv
课时29 Scrapy录播视频.flv
课时30 Scrapy进阶录播视频.flv
评论0