【爬虫实战】python文本分析库——Gensim

Gensim是一个可以用来进行文本处理和向量化的Python库。以下是一个使用Gensim进行文本分析的基本例子:




from gensim import corpora, models, similarities
 
# 示例文本数据
documents = [
    "Human machine interface for lab abc computer",
    "A survey of user opinion of computer system response time",
    "The EPS user interface management system",
    "System and human system engineering testing of CAD rental",
    "Relation of user perceived response time to error measurement",
    "The generation of random binary unordered trees",
    "The intersection graph of paths in trees",
    "Graph minors IV Widths of trees and well quasi ordering",
    "Graph minors A survey"
]
 
# 创建字典
dictionary = corpora.Dictionary(documents)
 
# 向量化文档:每个文档变成一个向量,向量中的每个元素是一个单词和它在文档中的出现次数
corpus = [dictionary.doc2bow(text.lower().split()) for text in documents]
 
# 训练TF-IDF模型
tfidf = models.TfidfModel(corpus)
 
# 转换为TF-IDF向量
corpus_tfidf = tfidf[corpus]
 
# 使用Item-based Latent Factor模型进行推荐
similarity_matrix = similarities.MatrixSimilarity(corpus_tfidf)
index = similarities.Similarity.index(similarity_matrix, corpus_tfidf)
 
# 查询最相似的文档
query = "graph minors survey"
query_vec = dictionary.doc2bow(query.lower().split())
sims = similarity_matrix[query_vec]
 
print("Query:", query)
for index, sim in sorted(enumerate(sims), key=lambda item: -item[1]):
    print(f"{index}: {documents[index]} - Similarity: {sim:.4f}")

这段代码首先定义了一些示例文本数据,然后创建了一个字典来映射文档中的单词,接着将每个文档转换为一个向量,并训练了一个TF-IDF模型。之后,它使用Item-based Latent Factor模型(一种基于内容的推荐系统)来找到查询与文档集合中其他文档的相似度。最后,它打印出与查询最相似的文档列表。这个例子展示了如何使用Gensim进行基本的文本分析和推荐系统构建。

最后修改于:2024年08月23日 11:38

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日