Python的Scrapy框架有什么用途?

  众所周知,Python有很多框架可以使用,比如说Scrapy。它是一个适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从网页中提取结构化的数据,用途十分广泛,那么你知道Scrapy有什么功能吗?Scrapy的架构是什么?

  Scrapy是一个适用抓取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛的领域,Scrapy常应用在包括数据挖掘、信息处理和存储历史数据等一系列的程序中,通常我们可以很简单的通过Scrapy框架实现一个爬虫,抓取指定网站的内容或图片。

  Scrapy的架构有哪些?

  Scrapy Engine:负责Spider、itemPipeline、Downloader、Scheduler中间的通讯,信息、数据传递等;

  Scheduler:负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排序,入队,当引擎需要时,交还给引擎;

  Downloader:负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine,由引擎交给Spider来处理;

  Spider:负责处理Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler;

  Item Pipeline:负责处理Spider中获取的item,并进行后期处理的地方;

  Downloader Middlewares:一个可以自定义扩展下载功能的组件;

  Spider Middlewares:一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

(0)

相关推荐

  • 初识scrapy

    Scrapy是一个用于爬取web站点并提取结构化数据的应用框架,通常我们称之为爬虫,一款优秀的python爬虫. scrapy爬取的数据可被用在数据挖掘.信息处理.历史数据归档等非常广泛的数据分析和处 ...

  • 列举几个简单的例子来更好的理解scrapy工作的原理

    说明:了解爬虫的可能都会知道,在爬虫里,requests入门简单,即使是没有基础的小白,学个几天也能简单的去请求网站,但是scrapy就相对来说就比较难,本片文章能是列举几个简单的例子去理解的scra ...

  • 使用 scrapy 爬取 stackoverflow 上的所有 Python 问答

    前两天 小帅b跟你 说了说分布式爬虫 在里面我就说到 弄个例子来体现一下分布式爬虫 在此之前 我们可以先写一个单机版的爬虫 往后再对其修改一些配置 就可以搞成分布式的了 所以这次我们先 爬取 stac ...

  • 初识scrapy爬虫框架

    框架是为了解决特定的业务场景而开发的一套高质量代码,通过框架避免了重复造轮子的低效模式,可以更加专注于具体业务相关的代码.在python中,scrapy就是一个主流的爬虫框架,可以通过如下方式进行安装 ...

  • Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息

    Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息 输出结果 后期更新-- 实现代码 import scrapy class DmozSpider(scrapy ...

  • Python Scrapy中文教程,Scrapy框架快速入门!

    谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...

  • 【汇总】Python网络编程框架有哪些?

    伴随着人工智能时代的到来,Python这门语言变得非常受欢迎,成为了很多开发人员的热捧,甚至还有不少小白.其他岗位就业人员想要转行学习Python,尤其是想要从事网络编程的人员,那么你知道Python ...

  • python笔记32-ddt框架报告优化

    前言 至于什么是ddt这个可以参考我之前写的博客内容,使用ddt框架的时候,有个问题困扰我很久了,一直没得到解决(也有很大小伙伴问过我,没解决抱歉了!) 这个问题就是:如何使用ddt框架时,生成的ht ...

  • python笔记39-unittest框架如何将上个接口的返回结果给下个接口适用(面试必问)

    前言 面试必问:如何将上个接口的返回结果,作为下个接口的请求入参?使用unittest框架写用例时,如何将用例a的结果,给用例b使用. unittest框架的每个用例都是独立的,测试数据共享的话,需设 ...

  • 什么是Scrapy框架?如何学习?

    Python是网络爬虫的首选语言,而Scrapy是写爬虫必须懂的框架,它是一个为了爬取网站数据,提取结构性数据而编写的应用框架,出名且强悍,接下来我们通过这篇文章详细的了解一下Scrapy框架. 什么 ...

  • Python爬虫:Scrapy从脚本运行爬虫的5种方式!

    Python爬虫:Scrapy从脚本运行爬虫的5种方式! Python编程学习圈 1周前 关注+星标,每天学习Python新技能 测试环境 一.命令行运行爬虫 1.编写爬虫文件 baidu.py 图片 ...

  • 【视频讲解】在scrapy框架中如何使用selenium?

    如何在scrapy中使用selenium 上一个文章已经分享了scrapy的settings.py.spider爬虫(spider文件夹中的爬虫).items.py.pipelines.py,但没有讲 ...

  • Python三大主流框架对比!Python学习教程

    在Python语言中,有三大主流框架,它们分别为:Flask.Django.Tornado,各具有独特的优势,也是学习Python时必须掌握的框架,那么它们之间有什么区别呢?我们一起来看看详细的介绍. ...