如何获取衡量股民情绪的指标？|东方财富股吧标题爬虫

2024-04-27 15:27:49

然后先把现在的网址记录下来，再将随后几页的网址也记录下来，放在一起比较，观察我们网址的规律，便于后续写循环。得到网址如下：

# 腾讯控股股吧URLhttp://guba.eastmoney.com/list,hk00700,f_1.htmlhttp://guba.eastmoney.com/list,hk00700,f_2.htmlhttp://guba.eastmoney.com/list,hk00700,f_3.htmlhttp://guba.eastmoney.com/list,hk00700,f_4.htmlhttp://guba.eastmoney.com/list,hk00700,f_5.html

可以看到网址的大部分都是相同的，只有f_后面的数字是不同，很明显这之后跟的数字就是股吧里的页码数。知道这个信息，在写循环的时候就好办了，只要改变f_后面的数字即可。可能还会有童鞋会问hk00700是什么？这里我们回顾上图里的蓝色框框可以发现00700.hk与hk00700本质上是一样的，都是股票代码，明白这个，如果你想爬取其他公司的股吧标题，只需要更换股票代码即可。

接下来我们使用Xpath来对标题、作者和发帖时间进行定位，如何使用Xpath进行定位本公众号之前有很多推文都讲过，这里就不再赘述了。得到定位信息之后，还不能立即着急进行爬虫，因为还要设置爬虫的终止条件。本次爬虫我们只要腾讯控股股吧6月份的标题，由于是倒序排列，那就需要我们在爬到五月份的时候停止。但是，观察发帖时间发现这些时间信息只包含日期和月份，并不包含年份，如果想要爬取三年、五年的时候该怎么设置爬虫的终止条件呢？想要达到这个目的，就要用到一些二次爬虫的技术了。

首先，如下图打开一个帖子，发现红框框中有年月日信息，这样就可以提取红框框中年月日来作为终止条件了。在不使用selenium的情况下，该如何根据帖子的列表获取每个帖子的源代码呢？其实很简单，每个帖子标题所在标签的href属性中都包含着该帖子的链接，这样就可以根据这个链接获取每个帖子的源代码了。再从中提取年月日，本次爬虫的准备工作就完成了。

二、具体操作

好了，本次爬虫的思路在上文中已经描述完了，现在就开始实操吧！

先调用本次要使用的库。

import requestsimport pandas as pdfrom lxml import etreeimport timeimport os

然后设置股票代码，并准备几个空列表，用于装取爬到的标题、作者和时间等信息。

stk = "hk00700"title=[]author=[]datatime=[]

接着使用requests来获取网页源代码，并根据Xpath定位获取我们需要的信息。这里只是对第一页进行爬虫，想要爬取多页通过循环更改f_后面的数字即可。因为time_list每页包含81项，其中首项为“发帖时间”四个汉字，所以为了与标题列表匹配，要对其进行切片处理取后80项，同理对author_list做同样处理。

url = "http://guba.eastmoney.com/list,hk00700,f_1.html"response = requests.get(url)tree = etree.HTML(response.text)title_list=tree.xpath("""//*[@id="articlelistnew"]/div/span[3]/a/text()""")author_list=tree.xpath("""//*[@id="articlelistnew"]/div/span[4]//text()""")time_list=tree.xpath("""//*[@id="articlelistnew"]/div/span[5]/text()""")time_list = time_list[1:]  #处理time_listtitle.extend(title_list)author.extend(author_list)datatime.extend(time_list)

再然后设置终止爬虫的判断条件，只需要判断每页最后一个帖子即可。在这一步，先从标题的标签的href属性里获取链接的一部分，再拼接上网址的前一部分"http://guba.eastmoney.com"即可获得帖子的正确链接。接着从提取发帖时间的年月日，要注意的是，如果某页最后一个帖子是有机构发布的资讯，那么我们提取信息的列表会返回空值。这时候需要设置一个判断语句，当遇到这种情况程序选择立即执行下一循环，否则提取年月日信息，并利用年月日判断是否满足终止循环的条件。具体如下：

#从标题的href属性获取testurl_list = tree.xpath("""//*[@id="articlelistnew"]/div[81]/span[3]/a/@href""")test_url = "http://guba.eastmoney.com" + testurl_list[0]response_2 = requests.get(test_url)#获取帖子中的日期tree = etree.HTML(response_2.text)test_list = tree.xpath("""//*[@id="zwconttb"]/div[2]/text()""")if test_list == [] :    time.sleep(5)    continueelse:    post_year = test_list[-1][4:8]    post_month = test_list[-1][9:11]    print(post_year,post_month)#如果某页发帖时间为2021年5月，则停止循环if int(post_year) == 2021 and int(post_month) ==5 :    breakelse:    time.sleep(5)    continue

循环停止之后，将爬虫得到的列表放入dataframe中进行清洗，删除那些标题为转发，和发帖时间为5月的帖子，然后导出到Excel中即可。

#导入dataframe    stkcd_list = [stk]*len(datatime)df = pd.DataFrame(data = [title,  author, datatime,stkcd_list]).Tdf.columns = ["标题", "作者","发布时间","股票代码" ]#数据清洗df = df[~df["标题"].str.contains("转发")]df = df[~df["发布时间"].str.contains("05-")]#输出到Excelfile = r"./股吧/HK00700股吧.xlsx"df.to_excel(file, index = None)

得到的文件如下图所示：

再提醒大家最后一句，当你频繁访问东方财富股吧的时候是会触发反爬机制的。所以，在爬虫时请不要设置太快的请求频率哦~

最后，我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。

【视频】有了selenium，小白也可以自豪的说：“去TMD的抓包、cookie”

请输入标题 bcdef 今天带给大家的是一款爬虫神器-selenium,使用该库可以对付绝大部分的网站,不论这网站反爬策略多么的厉害,在selenium面前经常失效. 请输入标题 ab ...
DataFrame的排序

DataFrame.sort_values(by, ascending=True, inplace=Flase ) 参数说明: by: 字符串或者List<字符串>,单列排序或者多列排序 ...
Python|快速掌握Python爬虫XPath语法

Python|快速掌握Python爬虫XPath语法
【动画】如何用scrapy命令行访问、解析网页数据

本文写作目的是为了让初学者了解scrapy命令行如何: 创建项目创建爬虫数据定位(设计parse函数) 试运行parse函数. 安装scrapy pip3 install scrapy 创建scr ...
不会写爬虫的快来Goose一下

今天遇到一个好玩的库,用来解析新闻类网页特别好用.基本上你不用分析网页,不用标签定位. 直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你. 缺点是goose不支持python3,为此我 ...
使用Selenium爬取网站表格类数据

本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
中国人民志愿军抗美援朝出国作战70周年，我用 Python 为英雄们送上祝福

来源:Python 技术「ID: pythonall」今年是中国人民志愿军抗美援朝出国作战 70 周年,刚好上个月上映了同题材的电影「金刚川」.该影片主要讲的是抗美援朝战争最终阶段,志愿军准备在金城 ...
抓取了《大秦赋》所有数据，我发现了这些秘密

前言最近大火的电视剧<大秦赋>,给朋友圈的小伙伴都拉回到那个风云激荡的春秋战国时期,大家都在热情的讨论着大秦一统,秦始皇嬴政.商人吕不韦的那些尔虞我诈.恩怨情仇.那到底小伙伴们都在讨论什 ...
A股现在估值到底贵不贵？教股民三个指标，是顶是底你一目了然

买股票基金,择时非常关键.顶部区域进场和底部区域进场,收益率天差地别. 那几个年化收益率很高的基金经理,比如朱少醒.董成非,都是赶巧在底部的时候发行的基金. 有很多实力也非常强的基金经理,就是因为基金 ...
1万做到150万，两个指标共振最有效方法，专为超短股民而生指标！

1万做到150万，两个指标共振最有效方法，专为超短股民而生指标！
发一个短线复利牛股指标，结交有缘的股民朋友-云指标公式网

股市博弈中任何人都离不开指标:指标不是万能的,没有指标是万万不能的,那怕你看裸K 它也是指标, 授人予鱼不如授人予渔,优秀的指标在实战操作中会节省你很多宝贵时间而助你一臂之力,当然有缘一起分享也是一种 ...
老股民讲BOLL指标，字字精华，悟透少走几年弯路，散户看三遍。

老股民讲BOLL指标，字字精华，悟透少走几年弯路，散户看三遍。
美女股民改良SKDJ指标，这个视频用心看完，账户翻翻的秘诀!

美女股民改良SKDJ指标，这个视频用心看完，账户翻翻的秘诀!
情绪面指标跟踪（2020/5/20）

情绪面指标跟踪（2020/5/20）
十年老股民传授超短指标，改良威廉胜率高达80%，值得学习

十年老股民传授超短指标，改良威廉胜率高达80%，值得学习
为什么那些有悟性的股民会抛弃指标？

加入我们成功跑赢大盘今日头条财经领域最具影响力创作者腾讯网年度十大财经大V 首先对于这个问题,我的回答是:技术肯定是有效.但不是永远有效:既然采用 ...
反应股民心理的指标——PSY（附：指标源码）——股市套利88招，独家解读15

我们继续学习本书的第三部分:指标分析工具--第18招PSY心理线指标心理线PSY指标是研究投资者对股市涨跌产生心理波动的情绪指标,对股市短期走势研判有一定的参考意义. 原理: 在股市中,投资者大都希 ...

如何获取衡量股民情绪的指标？|东方财富股吧标题爬虫

相关推荐