使用MongoDB Atlas Vector Search与LLMs实现高效查询




from transformers import AutoModel, AutoTokenizer
import numpy as np
from pymongo import MongoClient
 
# 连接到MongoDB Atlas
client = MongoClient("mongodb+srv://<username>:<password>@cluster0.mongodb.net/test?retryWrites=true&w=majority")
db = client["test"]
collection = db["documents"]
 
# 加载预训练的LLM模型和tokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3.5-turbo")
model = AutoModel.from_pretrained("gpt-3.5-turbo")
 
# 创建向量搜索查询
def create_search_query(query, collection, top_k):
    # 使用LLM将查询转换为向量
    query_vector = create_query_vector(query, tokenizer, model)
    
    # 在MongoDB集合中搜索最近邻的向量
    nearest_neighbors = collection.find({"vectors": {"$near": {"$geometry": {"type": "Point", "coordinates": query_vector}}}}).limit(top_k)
    
    # 返回前top_k个最近邻的文档
    return list(nearest_neighbors)
 
# 将文本转换为向量
def create_query_vector(text, tokenizer, model):
    inputs = tokenizer.encode(text, return_tensors='pt')
    outputs = model(inputs)
    last_hidden_states = outputs.last_hidden_state
    vector = last_hidden_states[0][0].mean(axis=0).numpy()  # 取第一个token的平均隐藏状态作为向量表示
    return vector.tolist()
 
# 示例查询
query = "地球的形状"
top_k = 5
results = create_search_query(query, collection, top_k)
for result in results:
    print(result)

这段代码展示了如何使用MongoDB Atlas进行基于向量的搜索以及如何将查询转换为文本向量。首先,它连接到MongoDB Atlas数据库,然后加载预训练的语言模型。create_search_query函数负责创建向量搜索查询,它首先调用create_query_vector函数来获取查询的向量表示,然后使用MongoDB的向量搜索功能查找最近邻的文档。最后,提供了一个示例查询,并打印出返回的结果。

最后修改于:2024年09月04日 08:44

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日