当前位置: 首页 > news >正文

vLLM框架本地布署Qwen3-32B模型 - yi

vLLM框架本地布署Qwen3-32B模型


先Conda虚拟环境创建,这里不再讲了,前面讲过。
激活环境
conda activate vllm_numpy_pytorch

 

 

下载完整模型库
modelscope download --model Qwen/Qwen3-32B

默认下载到: /home/admin1/.cache/modelscope/hub/models/

 


将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式

python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192

 

测试调用

curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'

 

903a4b5ac47eec17965f74d5ac1c26f3

 

http://www.hskmm.com/?act=detail&tid=1024

相关文章:

  • 项目管理软件中有哪些不同的模块以及如何导出其报告?
  • Kubernetes命名空间(Namespace)
  • linux安装python
  • 【IEEE、电力学科品牌会议】第五届智能电力与系统国际学术会议(ICIPS 2025)
  • Vllm部署大模型
  • CE第9关X64版本问题记录
  • 题解:P14013 [POCamp 2023] 送钱 / The Generous Traveler
  • 第十三届 TCCT 随机系统与控制专题研讨会 暨2025年智能控制与计算科学国际学术会议 (ICICCS 2025)
  • 注释
  • Microsoft 推出 .NET 10 RC 1
  • 2025 第九届控制工程与先进算法国际论坛(IWCEAA 2025)
  • 高等代数 I
  • kotlin中的netty
  • 多态
  • 数学分析 I note
  • 高等代数 I note
  • JAVA反编译神器CFR
  • 记录一下由于VS中qt的插件自动升级引发的编译问题
  • flutter右滑返回直接返回到native问题
  • ck随笔
  • 如何用变量与函数实现随机生成数字交互?附完整教程
  • 离散数学与分析 note
  • Java基础
  • Linux系统简单源码安装NGINX版本1.28.0
  • 终结“网络无助感”:Tenable CEO解析漏洞管理与安全心态
  • 部分算法记录
  • Kubernetes资源管理方式
  • 2025公众号排版工具深度测评报告:10款主流产品功能对比与场景化选择指南
  • 即将举办2025年11月埃及汽配博览会埃及国际汽配展Autotech
  • 生产搭建Hadoop