Python抓取B站评论词云可视化(一看就会)
前言
大家好,我是南南

众所周知,作为一个单身lsp,b站舞蹈区探花,咳咳咳,直接进入正题吧
由于内容过多,爬虫代码csdn上有很多篇博客讲解,我就不写了(我是不会告诉你是我懒的)
视频地址:BV12q4y1S7j9
爬完的数据是一个xlsx文件点我下载,我们直接开始数据分析吧!

提取评论写入txt文档
# -*- coding:utf-8 -*-import refrom openpyxl import load_workbook#打开一个新文件wb = load_workbook(filename = r"C:\Users\Administrator\Desktop\ss.xlsx")data = open("b.txt",'w',encoding="utf-8")#建立文档ws.delete_rows(1)#删除第一行\ws = wb.get_sheet_by_name('sheet1')#打开工作表1first_column = ws['D']#第四列for i in range(len(first_column)): print(first_column[i].value,file=data) #读取单元格内容并存储为文本导入相关库
#!/usr/bin/python# encoding: UTF-8import reimport jiebaimport wordcloudimport pyecharts.options as optsimport pandas as pd文本转列表
result=[]with open('b.txt', encoding='utf-8') as f: for line in f: result.append(line.strip('\n').split(',')[0])print(result)#下面是对读取到的数组进行变化result_gai = []a = 0for i in result: while(a%2 == 0): pos = i.find(':') #查找某一个字符在在字符串的位置 result_gai.append(i[pos+1:]) break a+=1print(result_gai)去除符号
res = ''.join(result_gai).replace('\xa0', '').replace('\ufeff', '').replace('\r', '')print(res)词云可视化
from wordcloud import WordCloudwordcloud = WordCloud(font_path="msyh.ttc",background_color='white').generate(string)#定义字体和背景色%pylab inlineimport matplotlib.pyplot as pltplt.imshow(wordcloud, interpolation='bilinear')plt.axis("off")运行结果

写在最后
感觉python还是蛮简单的,有兴趣的可以学一学python基础语法
赞 (0)
