Elasticsearch:BM25 及 使用 Elasticsearch 和 LangChain 的自查询检索器
BM25是一种常用的搜索信息检索模型,它基于词频(TF)和逆文档频率(IDF)的概念,并结合了文档的长度标准化(Dl)和查询的长度标准化(Ql)来评估查询和文档的相关性。
在Elasticsearch中,可以通过设置index.search.similarity
参数来指定使用BM25相似性评分模型。
以下是一个简单的Elasticsearch设置,使用BM25相似性评分模型的例子:
PUT /my_index
{
"settings": {
"similarity": {
"my_similarity": {
"type": "BM25",
"k1": 1.2,
"b": 0.75
}
}
}
}
在Elasticsearch中使用BM25进行查询时,可以指定相似性评分模型:
GET /my_index/_search
{
"query": {
"match": {
"content": {
"query": "Elasticsearch",
"similarity": "my_similarity"
}
}
}
}
在Python中,使用elasticsearch-dsl-py
库可以很容易地设置相似性评分模型。以下是一个设置BM25相似性评分模型的例子:
from elasticsearch_dsl import connections, Document, Text, BM25Similarity, Similarity
connections.create_connection(hosts=['localhost:9200'])
similarity = Similarity('my_similarity', BM25Similarity(k1=1.2, b=0.75))
class MyDocument(Document):
content = Text(similarity='my_similarity')
class Index:
name = 'my_index'
settings = {
'similarity': similarity
}
if __name__ == '__main__':
MyDocument.init()
在Python中使用Elasticsearch进行查询时,可以指定相似性评分模型:
from elasticsearch_dsl import Search
s = Search(using='localhost:9200', index='my_index')
s = s.query('match', content={'query': 'Elasticsearch', 'similarity': 'my_similarity'})
response = s.execute()
LangChain是一个用于构建和优化语言模型应用和工作流的Python库。LangChain提供了一个自QueryRewrite自动生成查询的功能,可以用来自动优化搜索查询。
以下是一个使用LangChain创建自QueryRewrite的例子:
from langchain import LLM, LLMChain, ConversationLLM, QR
llm = LLM(...) # 初始化LLM模型
chain = LLMChain(llm, qr_type=QR.from_llm(llm)) # 创建包含自QueryRewrite的LLM链
response = chain.respond("搜索Elasticsearch相关的文档")
在这个例子中,LangChain会使用LLM模型来理解用户查询,并生成一个优化后的查询,然后将其用于搜索Elasticsearch中的相关文档。
评论已关闭