BM25检索算法 python

BM25是一种常用的信息检索模型,用于评估查询中每个文档的相关性。以下是一个简单的Python实现:




import math
 
def bm25(query, document, k1=1.2, b=0.75):
    """
    Calculate BM25 score for a given query and document.
    :param query: A list of query terms.
    :param document: A string representing the document text.
    :param k1: A constant for term frequency normalization.
    :param b: A constant for field-length normalization.
    :return: BM25 score as a float.
    """
    score = 0.0
    dl = len(document)
    avgdl = math.fsum(len(word) for word in document.split()) / len(document.split())
    for term in query:
        fi = document.count(term)
        qfi = query.count(term)
        k = k1 * (1 - b + b * (dl / avgdl))
        score += (fi * (k1 + k * fi) / (k1 + k * (1 - b + b * (fi / avgdl)))) * (qfi ** 2)
    return score
 
# Example usage:
query = ["python", "search", "algorithm"]
document = "Python is a high-level programming language used for general-purpose programming. It is an interpreted language with dynamic semantics. Its design philosophy emphasizes code readability with its notable use of significant whitespace. The language provides constructs that enable clear programming on both small and large scales."
 
score = bm25(query, document)
print(f"BM25 Score: {score}")

这段代码定义了一个bm25函数,它接受查询词和文档作为输入,并返回BM25得分。在实例化时,我们使用了一个查询词列表和一个文档字符串。然后,我们打印出计算出的BM25得分。

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日