本项目采用Java语言实现,绝对基于真实的爬虫项目进行改进和优化,希望进一步提升大家的大数据项目经验。本项目基本涵盖了爬虫项目的整个流程,包括数据爬虫、全文检索、数据可视化、爬虫项目监控、爬虫项目维护等等。解决了爬虫项目中遇到的棘手问题,包括破解网站反爬策略、网站模板定期变更、网站频繁访问IP被封等等问题。
课程目录:
01_项目背景.mp4
02_项目总体需求.mp4
03_难点分析.mp4
04_架构设计.mp4
05_技术选型.mp4
06_部署方案.mp4
07-1_爬虫代码实现一:下载解析视频网站页面.mp4
07-2_爬虫代码实现一:下载解析视频网站页面.mp4
07-3_爬虫代码实现一:下载解析视频网站页面.mp4
08_爬虫代码实现二:抽取网站规则模板,优化解析代码.mp4
09_爬虫代码实现三:打通爬虫项目的下载、解析、存储流程.mp4
10_爬虫代码实现四:采用Hbase存储爬虫数据.mp4
11-1_爬虫代码实现五:解析所有分页url并优化解析实现类.mp4
11-2_爬虫代码实现五:解析所有分页url并优化解析实现类.mp4
12_爬虫代码实现六:Queue队列实现循环抓取.mp4
13_爬虫代码实现七:实现高、低级队列循环抓取.mp4
14_爬虫代码实现八:采用Redis 创建url仓库, 实现分布式爬虫.mp4
15_爬虫代码实现九:多线程爬虫.mp4
16-1_爬虫代码实现十:定时启动爬虫项目.mp4
16-2_爬虫代码实现十:定时启动爬虫项目.mp4
17-1_爬虫代码实现十一:完善爬虫项目.mp4
17-2_爬虫代码实现十一:完善爬虫项目.mp4
18-1_全文检索.mp4
18-2_全文检索.mp4
18-3_全文检索.mp4
19-1_数据可视化.mp4
19-2_数据可视化.mp4
20-4_项目优化一:解决频繁抓IP被封问题.mp4
20-1_项目优化一:解决频繁抓IP被封问题.mp4
20-2_项目优化一:解决频繁抓IP被封问题.mp4
20-3_项目优化一:解决频繁抓IP被封问题.mp4
21_项目优化二:爬虫项目监控.mp4
22_项目优化三:邮件提醒.mp4
评论0