大模型部署

使用 vllm 、sglang 等高性能生产级部署

vLLM 高性能推理部署指南 vLLM 是一个为大型语言模型（LLM）设计的高性能、高吞吐量的推理和服务引擎。它通过创新的 PagedAttention 算法，显著减少了内存浪费，并实现了比传...