本周作业

Python网络爬虫进阶实战第十周闯关作业

一、问题描述：

本周课程主要讲解网络爬虫的进阶实战。具体有：Selenium动态渲染信息爬取，MongoDB和Redis数据库的使用、代理服务的使用，以及Scrapy-Redis分布式爬虫：

1）.使用Scrapy框架和Selenium配合爬取京东网站商品列表信息（>=50页）：

网址：https://list.jd.com/list.html?cat=670,671,672
爬取字段信息由自己定制，这里不做要求。

2 ). 使用scrapy-redis分布式爬取CSDN学院平台中所有课程信息

如：https://edu.csdn.net/courses/k 爬取所有课程详情url地址
然后再通过队列url中对应的每个课程详情信息，使用分布式爬取。
如：https://edu.csdn.net/course/detail/5466
要求内容：课程标题，课时、讲师、适合人群、学习人数、价格、课程大纲。

二、解题提示：

第一道题请参考Scrapy+selenium课堂案例。
第二道题参考Scrapy+Redis爬虫实战案例。

三、批改标准：

1）Scrapy-Selenium爬取京东商品信息（45分）
2）Scrapy-Redis分布式爬取CSDN学院课程信息（45分）
3）其他项：(10分)（文件结构清晰，代码整洁，要求适量的注释）

results matching ""

No results matching ""