简要说一下关于爬虫的东西。

爬虫的概念

爬虫的别名很多,网络爬虫,网络蜘蛛之类的大家都知道就不说了。

通俗来讲,爬虫就是通过编写程序,模拟我们使用浏览器上网,在互联网中抓取我们想要的数据的过程。

这里有两个关键词:模拟和抓取

爬虫的分类

依据抓取的内容和使用的方式不同,大致可以将爬虫分为四个类别:通用爬虫、聚焦爬虫、增量式爬虫和分布式爬虫。

反爬机制与反反爬策略

robots 协议,课程第一个反爬机制

爬虫模块

我们要学到的爬虫模块又下面两个:requests 和 scrapy。

requests 模块

scrapy 框架