python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影

2024-06-13 22:03:05

我们在之前的文章谈到了高效爬虫

在 python 中

多线程下的 GIL 锁会让多线程显得有点鸡肋

特别是在 CPU 密集型的代码下

多线程被 GIL 锁搞得效率不高

特别是对于多核的 CPU 来说

如果想要充分利用 CPU

还是用多进程吧

这样我们就可以做到并行爬取

提高了爬取的效率

那么，怎么玩多进程呢

恩

接下来就是

学习 python 的正确姿势

可以使用 multiprocessing 来实现多进程

使用起来也是很简单的

比如我们使用 Process 这个类来创建进程

from multiprocessing import Process

def f(name): print('hello', name)

if __name__ == '__main__': p = Process(target=f, args=('xiaoshuaib',)) p.start() p.join()

还可以使用进程池的方式

from multiprocessing import Pool

def f(x): return x*x

if __name__ == '__main__': with Pool(5) as p: print(p.map(f, [1, 2, 3]))

还记得我们之前爬取过 250 部电影么

python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看

那会我们还不知道啥是多进程

你先去运行一下

记录一下运行时间

接着

我们对这个代码修改一下

让它具备多进程

def main(url): html = request_douban(url) soup = BeautifulSoup(html, 'lxml') save_content(soup)

if __name__ == '__main__': start = time.time() urls = [] pool = multiprocessing.Pool(multiprocessing.cpu_count()) for i in range(0, 10): url = 'https://movie.douban.com/top250?start=' + str(i * 25) + '&filter=' urls.append(url) pool.map(main, urls) pool.close() pool.join()

简单解释一下代码

在这里

我们根据电脑 CPU 的内核数量

创建相应的进程池

pool = multiprocessing.Pool(multiprocessing.cpu_count())

我们的进程数不需要大于内核数

因为进程数创建得再多反而没什么好处

通过 map 方法去执行我们的主函数

将我们获得的 url 传过去

pool.map(main, urls)

然后我们调用了进程池的 close 方法

让它不再创建进程

pool.close()

我们调用了 join 方法

pool.join()

为的是让进程池的进程执行完毕再结束

你再运行一下

再记录一下运行时间

对比一下

你会发现速度翻了好几番了

当然

这取决于你电脑的 CPU

你还可以去爬取数据量大一些的数据

这样对比会更加明显一些

快去试一下吧

(1条消息) Python 多进程 multiprocessing.Pool类详解

multiprocessing模块 multiprocessing包是Python中的多进程管理包.它与 threading.Thread类似,可以利用multiprocessing.Process对 ...
一分钟了解 Python 中的并行计算

Python 以极高的开发效率著称,而运行速度则"没那么快". 虽然,在现代计算机体系架构下,系统的运行效率并不完全取决于编程语言,但程序员仍有可能从编程技巧着手,让自己的代码&q ...
第48天：初识 Python 多线程

我们知道,多线程与单线程相比,可以提高 CPU 利用率,加快程序的响应速度. 单线程是按顺序执行的,比如用单线程执行如下操作: 6秒读取文件19秒处理文件15秒读取文件28秒处理文件2 总共用时 28 ...
说说提高Python运行效率的技巧？

公众号新增加了一个栏目,就是每天给大家解答一道Python常见的面试题,反正每天不贪多,一天一题,正好合适,只希望这个面试栏目,给那些正在准备面试的同学,提供一点点帮助! 小猿会从最基础的面试题开始, ...
一篇文章带你解析Python进程

来源|本文经授权转载自Python爬虫与数据挖掘前言进程,一个新鲜的字眼,可能有些人并不了解,它是系统某个运行程序的载体,这个程序可以有单个或者多个进程,一般来说,进程是通过系统CPU 内核数来分 ...
(1条消息) python多进程并发与pool多线程

一．多进程: 当计算机运行程序时,就会创建包含代码和状态的进程.这些进程会通过计算机的一个或多个CPU执行.不过,同一时刻每个CPU只会执行一个进程,然后不同进程间快速切换,给我们一种错觉,感觉好像多 ...
【Python从入门到精通】（二十五）Python多进程的使用

[Python从入门到精通](二十五)Python多进程的使用您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本篇重点介绍Python多进程的使用,读者朋友们可以将多进程和多线程两者做一个对比 ...
Python爬虫周记之案例篇——基金净值爬取（上）

相信很多金融类的从业者和学者都比较偏好于爬取金融类数据,比如博主我✧(≖ ◡ ≖✿) 在完成了简单的环境配置后,博主我安耐不住鸡冻的心情,打算先爬个基金数据以解手痒,顺便通过这个案例简单了解一下其中涉 ...
Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片

2017.04.27 16:34:04字数 915阅读 1,958 一.前言这是我第一次写文章,作为一个非计算机,编程类专业的大二学生,我希望能够给像我这样的入门的朋友一些帮助,也同时激励自己努力写 ...
python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看

马上就要过年啦过年在家干啥咧准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的但实际上你是这样的应付完之后闲暇时刻不妨看看电影接下来咱们就来爬取豆瓣上评分最高的 250部电影 ...
第119天：Python 爬取豆瓣电影 top 250

豆瓣作为一个汇聚书影音内容的社区网站,得到了大量用户的认可和青睐,现在很年轻人在看电影或者买书之前都会去豆瓣上看一下评分和相关评论,不得不说豆瓣评分在一定程度上很客观的反映了一部作品的受欢迎程度. 今 ...
python爬取豆瓣影评存数据库【新手必入】

效果展示需要用到的库 import requestsfrom time import sleepfrom lxml import etreeimport pymysql 首先看看我们要爬的页面链接 ...
全网最简单的数据爬虫教程，只需6分钟轻松使用Excel完成数据爬取

全网最简单的数据爬虫教程，只需6分钟轻松使用Excel完成数据爬取
使用 scrapy 爬取 stackoverflow 上的所有 Python 问答

前两天小帅b跟你说了说分布式爬虫在里面我就说到弄个例子来体现一下分布式爬虫在此之前我们可以先写一个单机版的爬虫往后再对其修改一些配置就可以搞成分布式的了所以这次我们先爬取 stac ...
家里废弃USB充电线不要扔了，变废为宝，有大用，快去试试吧

家里废弃USB充电线不要扔了，变废为宝，有大用，快去试试吧
夏天天气热，这几道正适合没胃口的你，快去试试吧

黑椒鸡腿饭方法:1.鸡腿洗净去骨,用盐.白糖和黑胡椒粉搓匀,加入酱油和老酱油,腌一晚上 2.料酒.生抽.老抽.白糖.黑胡椒粉,加少许清水调成料汁: 3.洋葱切碎,炒锅倒油烧热,爆香洋葱碎,下入鸡腿, ...

python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影

相关推荐