【爬虫+数据清洗+数据分析+可视化】用Python进行文本挖掘“狂飙“的评论

作者：System 时间：2024年08月25日分类：所有,爬虫字数：957

这篇文章距离上次修改已过359天，其中的内容可能已经有所变动。




import pandas as pd
import jieba
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
 
# 读取数据
df = pd.read_csv('data.csv', encoding='utf-8')
 
# 使用结巴分词
df['word_seg'] = df['comment'].apply(lambda x: ' '.join(jieba.cut(x)))
 
# 创建词频表
word_series = pd.Series(' '.join(df['word_seg']).split())
word_df = word_series.value_counts()[:1000].sort_values(ascending=False).reset_index()
word_df.columns = ['word', 'count']
 
# 词云可视化
cloud_mask = np.array(plt.imread('star.png'))
wordcloud = WordCloud(background_color='white', mask=cloud_mask, contour_width=3, contour_color='steelblue')
word_frequencies = {key: word_df.loc[i, 'count'] for i, key in enumerate(word_df['word'])}
wordcloud = wordcloud.fit_words(word_frequencies)
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

这段代码首先导入了必要的Python库，并读取了数据。接着使用结巴分词库对评论进行了分词处理，并创建了一个词频表。最后，使用词频数据生成了一个词云图，展示了评论中最常见的词汇。这个过程展示了如何进行文本挖掘，分析情感，并以可视化的方式呈现结果。

【爬虫+数据清洗+数据分析+可视化】用Python进行文本挖掘“狂飙“的评论

评论已关闭

推荐阅读