Python网络爬虫进阶实战第九周闯关作业
一、 问题描述:
- 本周课程主要讲解Scrapy框架的使用。
- 具体有:Scrapy爬虫框架以及内部每个组件的使用(Selector选择器、Spider爬虫类、Downloader和Spider中间件、ItemPipeline管道类):
- 具体作业如下:
①.使用Scrapy爬虫框架爬取新浪网的分类导航信息:
②. 使用scrapy模拟完成人人网登陆的登陆操作:
- 如URL地址:http://www.renren.com/
③. 爬取当当图书网站中所有关于python关键字的图片信息。
- 参考URL:http://search.dangdang.com/?key=python&act=input
- 要求将图书图片下载存储指定的目录中,而图书信息写入到数据库中。
二、 解题提示:
- 第一道题请参考Selector选择器中实战案例。
- 第二道题参考爬虫基础的人人网登陆,使用scrapy的POST带参数请求
- 第三道题请参考ItemPipeline中的实战案例。
三、 批改标准:
- Scrapy新浪网的分类导航信息爬取(20分)
- Scrapy模拟登陆人人网(20分)
- 当当网的图片信息爬取(50分)(其中:信息爬取20,数据存储15,图片下载15)。
- 其他项:(10分)(文件结构清晰,代码整洁,要求适量的注释)。