最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
# 导入所需库
import torch
from transformers import MiniLMModel, MiniLMConfig, MiniLMTokenizer
# 模型加载配置
model_name_or_path = 'THUDM/MiniCPM_v2'
device = 'cuda' if torch.cuda.is_available() else 'cpu'
# 加载预训练的tokenizer
tokenizer = MiniLMTokenizer.from_pretrained(model_name_or_path)
# 加载模型配置
config = MiniLMConfig.from_pretrained(model_name_or_path)
# 加载模型
model = MiniLMModel.from_pretrained(model_name_or_path).to(device)
# 示例输入
text = "这是一个测试样本。"
# 对输入文本进行编码
inputs = tokenizer(text, return_tensors='pt', padding=True)
# 在设备上进行输入张量
for k in inputs:
inputs[k] = inputs[k].to(device)
# 模型推理
with torch.no_grad():
outputs = model(**inputs)
# 获取最后一个隐藏状态作为文本的表示
last_hidden_states = outputs.last_hidden_state
# 打印输出结果
print(f"Last hidden states shape: {last_hidden_states.shape}")
这段代码展示了如何加载预训练的MiniCPM-V2模型,并对一个中文文本进行编码,然后在GPU上进行推理,并获取最后的隐藏状态作为文本的表示。这个过程是自然语言处理中常见的模型使用流程,对于需要部署自己的模型到生产环境的开发者来说,具有很好的教育意义。
评论已关闭