【爬虫+数据清洗+数据分析+可视化】用Python进行文本挖掘“狂飙“的评论
import pandas as pd
import jieba
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
# 读取数据
df = pd.read_csv('data.csv', encoding='utf-8')
# 使用结巴分词
df['word_seg'] = df['comment'].apply(lambda x: ' '.join(jieba.cut(x)))
# 创建词频表
word_series = pd.Series(' '.join(df['word_seg']).split())
word_df = word_series.value_counts()[:1000].sort_values(ascending=False).reset_index()
word_df.columns = ['word', 'count']
# 词云可视化
cloud_mask = np.array(plt.imread('star.png'))
wordcloud = WordCloud(background_color='white', mask=cloud_mask, contour_width=3, contour_color='steelblue')
word_frequencies = {key: word_df.loc[i, 'count'] for i, key in enumerate(word_df['word'])}
wordcloud = wordcloud.fit_words(word_frequencies)
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
这段代码首先导入了必要的Python库,并读取了数据。接着使用结巴分词库对评论进行了分词处理,并创建了一个词频表。最后,使用词频数据生成了一个词云图,展示了评论中最常见的词汇。这个过程展示了如何进行文本挖掘,分析情感,并以可视化的方式呈现结果。
评论已关闭