统计文本词频的几种方法(Python)
在Python中,统计文本词频的几种方法包括:
- 使用Python内置的
collections
模块中的Counter
类。 - 使用正则表达式分割文本,然后通过字典统计词频。
- 使用
jieba
库进行中文分词后统计词频。
下面是这些方法的示例代码:
- 使用
Counter
类:
from collections import Counter
text = "This is an example for word frequency counting."
counter = Counter(text.split())
print(counter)
- 使用正则表达式和字典:
import re
text = "This is an example for word frequency counting."
words = re.findall(r'\w+', text)
word_freq = {word: words.count(word) for word in set(words)}
print(word_freq)
- 使用
jieba
库进行中文分词:
import jieba
text = "这是一个例子来进行词频统计。"
words = jieba.cut(text)
word_freq = Counter(words)
print(word_freq)
注意:jieba
库需要先通过pip install jieba
进行安装。
评论已关闭