Python网络爬虫进阶实战第九周闯关作业

一、 问题描述:

  • 本周课程主要讲解Scrapy框架的使用。
  • 具体有:Scrapy爬虫框架以及内部每个组件的使用(Selector选择器、Spider爬虫类、Downloader和Spider中间件、ItemPipeline管道类):
  • 具体作业如下:

①.使用Scrapy爬虫框架爬取新浪网的分类导航信息:

②. 使用scrapy模拟完成人人网登陆的登陆操作:

③. 爬取当当图书网站中所有关于python关键字的图片信息。

二、 解题提示:

  • 第一道题请参考Selector选择器中实战案例。
  • 第二道题参考爬虫基础的人人网登陆,使用scrapy的POST带参数请求
  • 第三道题请参考ItemPipeline中的实战案例。

三、 批改标准:

  • Scrapy新浪网的分类导航信息爬取(20分)
  • Scrapy模拟登陆人人网(20分)
  • 当当网的图片信息爬取(50分)(其中:信息爬取20,数据存储15,图片下载15)。
  • 其他项:(10分)(文件结构清晰,代码整洁,要求适量的注释)。

results matching ""

    No results matching ""