Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

2024-08-07 05:29:20

Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

输出结果

实现代码

# -*- coding: utf-8 -*-

#Py之Crawler：利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评
import time
import requests
import csv
from bs4 import BeautifulSoup
head = 'https://movie.douban.com/subject/'
middle = '/comments?start='
zr_tail = '&limit=20&sort=new_score&status=P&percent_type='
names = []
header = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
}

zr_urls = ['最热']
def createUrls():
   for j in range(1, 34, 2):
       name = names[j]
       #print(name)
       for i in range(0, 100, 20):
           zr_urls.append(head + str(name) + middle + str(i) + zr_tail)
           #print(zr_urls)得到某个电影短评地址(默认最热排序)，如https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():
   with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:
       for i in f.readlines():
           i = i.strip('\n')
           names.append(i)
           #print(names)
readName()
createUrls()
get_comments(zr_urls)  #传入zr_urls

完整代码，后续一周内即将公布！

相关文章：Py之PIL：不一样的PS之利用PIL库的img.paste方法实现合成刘若英导演电影《后来的我们》海报设计

赞 (0)

2019年春节期间所看电影的短评

2019年春节期间所看电影的短评时光飞逝,2019年春节已经结束了! 在春节期间,笔者有和家人一起去电影院看了几部电影:<疯狂的外星人><飞驰人生><熊出没:原始时代& ...
Python爬虫入门，快速抓取大规模数据

大到各类搜索引擎,小到日常数据采集,都离不开网络爬虫.爬虫的基本原理很简单,遍历网络中网页,抓取感兴趣的数据内容.这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据,然后会一步步逐渐完善爬虫的抓取功能 ...
入门爬虫？一文搞定！

为了感谢大家对"Python客栈"的关注与支持,我们每天会在留言中随机抽取三位粉丝发放6.6元小红包.快来参与吧! 文章分三个个部分两个爬虫库requests和selenium如 ...
Crawler：基于BeautifulSoup库+requests库+伪装浏览器的方式实现爬取14年所有的福彩网页的福彩3D相关信息，并将其保存到Excel表格中

Crawler:Python爬取14年所有的福彩信息,利用requests库和BeautifulSoup模块来抓取中彩网页福彩3D相关的信息,并将其保存到Excel表格中输出结果中国彩票网本来想 ...
Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内输出结果 4月有31天?wha ...
Crawler：基于requests库+urllib3库+伪装浏览器实现爬取抖音账号的信息数据

Crawler:Python之Crawler爬取抖音账号的信息数据输出结果更新-- 代码设计 from contextlib import closing import requests, jso ...
基于golang的小爬虫，爬取QQ邮箱号和QQ号

这个只是一个简单的版本只是获取QQ邮箱并且没有进行封装操作,另外爬出来的数据也没有进行去重操作 package mainimport ( "fmt" "io/ioutil ...
手把手教你爬取优酷电影信息-2

上一章节中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用HtmlAgilityPack库,对爬虫的爬取一共分为三步爬虫步骤加载页面解析数据保存数据继第一篇文档后的爬虫进阶,本文章主要是 ...
Py之Crawler：基于requests库+json库实现爬取刘若英2018导演电影《后来的我们》的插曲《再见》张震岳的几十万热评+词云：发现“再见”亦是再也不见

Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影<后来的我们>的插曲<再见>张震岳的几十万热评+词云:发现"再见"亦是 ...
Crawler：基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息

Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息输出结果实现代码 # -*- coding: utf-8 -*- #Py之Crawler ...
Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海.北京关于区块链职位的求职信息输出结果 1.上海区块链职位国内某知名招聘网上海关于区块链职位的求职信息分析图 2.北京 ...
Crawler：基于splinter.browser库实现爬取12306网站来实现快速抢票

Python之Crawler:爬取12306网站来实现快速抢票实现结果实现代码 # -*- coding: utf-8 -*- from splinter.browser import Brows ...