Python 网络爬虫简介
概述
网络爬虫(Web Spider)又称网络蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
按照系统结构和实现技术,大致可以分为以下几种类型:
- 通用网络爬虫
- 聚焦网络爬虫
- 增量式网络爬虫
- 深层网络爬虫
关于爬虫的合法性
几乎每个网站都有一个名为 robots.txt 的文档,当然也有些网站没有设定。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面的数据都可以爬取。如果网站有文件 robots.txt 文档,就要判断是否有禁止访客获取数据,如 https://www.taobao.com/robots.txt