scrapy 简要介绍
scrapy 简要介绍
我们从前接触到过 DJango,是一个 Web 框架。那么什么是框架呢?
所谓的框架,其实就是一个被集成了很多功能且具有很强通用性的一个项目模板。
对于框架的学习,往往会经历两个阶段:
- 初级阶段,学习框架中集成好的各种功能的特性及作用,也就是知道怎么用
- 进阶阶段,逐步的探索框架的底层,知道为什么要这么用,进而知道该如何实现更高级的功能
我们写爬虫代码,需要经常写一些请求发送、数据解析、存储数据的代码。重复写代码当然不是一个好事情。同时,如果我们想要对爬虫代码进行优化,又要付出很大精力写很多代码才行。有时候,受限于自身水平,麻麻烦烦写好的优化代码效率仍然不让人满意。于是,scrapy 应运而生。
scrapy 是一个专门用于异步爬虫的框架,可以实现高性能的数据解析、请求发送、持久化存储、全站数据爬取,中间件、分布式......
scrapy 环境的安装
macOS 和 Linux 系统可以直接 pip 安装:
pip install scrapy
Windows 系统的安装要稍微繁琐些,需要先安装 Twisted,然后才能使用 pip 安装 scrapy。Twisted 是一个网络引擎框架。scrapy 需要依赖 Twisted 环境。对于 macOS 和 Linux 系统来说,会自动安装 Twisted,但是 Windows 系统并不能自动安装,所以需要我们手动下载配置。
-
安装 wheel,wheel 可以安装离线的 Python 包:
pip3 install wheel
-
下载 twisted 文件,下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
找到指定版本的 twisted 文件,点击即可下载,比如我的 Python 版本是 3.6.8,操作系统是 64 位的,就选择这个:
-
进入下载目录,执行命令安装 Twisted(注意文件名要是刚刚下载的 Twisted 安装文件):
pip install Twisted‑20.3.0‑cp36‑cp36m‑win_amd64.whl
Twisted 就是一个异步的架构,被作用在了 scrapy 中。
如果安装报错,可以尝试更换另一个版本的 Twisted 文件进行安装。
-
安装 pywin32:
pip install pywin32
-
安装 scrapy:
pip install scrapy
测试:cmd 中输入 scrapy 按下回车,如果没有报错说明安装成功。