跳到主要内容

Python 网络爬虫简介

概述

网络爬虫(Web Spider)又称网络蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

按照系统结构和实现技术,大致可以分为以下几种类型:

  • 通用网络爬虫
  • 聚焦网络爬虫
  • 增量式网络爬虫
  • 深层网络爬虫

关于爬虫的合法性

几乎每个网站都有一个名为 robots.txt 的文档,当然也有些网站没有设定。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面的数据都可以爬取。如果网站有文件 robots.txt 文档,就要判断是否有禁止访客获取数据,如 https://www.taobao.com/robots.txt