从源码分析 vllm + Ray 的分布式推理流程

作者：System 时间：2024年08月16日分类：所有,分布式字数：995

这篇文章距离上次修改已过440天，其中的内容可能已经有所变动。




# 假设以下是vllm_ray_distributed_inference.py的核心函数：
 
from vllm import VLLM
from ray.util.annotations import compute
 
# 假设这是一个Ray任务，用于在每个工作进程中初始化VLLM模型
@compute
def init_vllm(model_name):
    return VLLM(model_name)
 
# 假设这是一个Ray任务，用于在每个工作进程中执行推理
@compute
def run_inference(vllm, prompt):
    return vllm.generate(prompt)
 
# 主函数，启动Ray并执行分布式推理
def main(model_name, prompt):
    import ray
    ray.init(address="auto")
    
    # 初始化VLLM模型
    vllm_handle = init_vllm.remote(model_name)
    
    # 执行推理
    inference_result_ids = [run_inference.remote(vllm_handle, prompt) for _ in range(10)]
    inference_results = ray.get(inference_result_ids)
    
    # 输出结果
    for result in inference_results:
        print(result)
 
# 示例调用
if __name__ == "__main__":
    main("gpt-3", "Hello, world!")

在这个示例中，我们定义了两个Ray远程函数：init_vllm和run_inference。init_vllm负责在每个工作进程中初始化VLLM模型，而run_inference负责执行推理。主函数main启动Ray集群，并使用这些远程函数执行分布式推理任务。这个例子展示了如何在Ray框架下利用分布式计算资源进行模型推理。

从源码分析 vllm + Ray 的分布式推理流程

评论已关闭

推荐阅读