本周作业
Python网络爬虫进阶实战第十周闯关作业
一、 问题描述:
- 本周课程主要讲解网络爬虫的进阶实战。具体有:Selenium动态渲染信息爬取,MongoDB和Redis数据库的使用、代理服务的使用,以及Scrapy-Redis分布式爬虫:
1).使用Scrapy框架和Selenium配合爬取京东网站商品列表信息(>=50页):
- 网址:https://list.jd.com/list.html?cat=670,671,672
- 爬取字段信息由自己定制,这里不做要求。
2 ). 使用scrapy-redis分布式爬取CSDN学院平台中所有课程信息
- 如:https://edu.csdn.net/courses/k 爬取所有课程详情url地址
- 然后再通过队列url中对应的每个课程详情信息,使用分布式爬取。
- 如:https://edu.csdn.net/course/detail/5466
- 要求内容:课程标题,课时、讲师、适合人群、学习人数、价格、课程大纲。
二、 解题提示:
- 第一道题请参考Scrapy+selenium课堂案例。
- 第二道题参考Scrapy+Redis爬虫实战案例。
三、 批改标准:
- 1)Scrapy-Selenium爬取京东商品信息(45分)
- 2)Scrapy-Redis分布式爬取CSDN学院课程信息(45分)
- 3)其他项:(10分)(文件结构清晰,代码整洁,要求适量的注释)