当前位置：首页 > news >正文

vLLM常用参数解释

news 2025/12/30 4:38:05

vLLM常用参数解释

--max-model-len 16384 ：设置模型能处理的最大上下文长度（输入 + 输出）token数量，典型值：8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 ：一次批处理（batch）中，最多允许的总 token 数量（包括所有请求的 prompt + 已生成的 token）
--max-num-seqs 64：一个 batch 中最多同时处理的请求数量（即并发序列数），即使总 token 数远低于 8192，也不能超过 64 个请求同时处理

--quantization awq：指定量化方式

--dtype=auto：自动选择精度

--trust-remote-code

--distributed-executor-backend=ray ：通过ray群集运行

--pipeline-parallel-size 2 ：指定节点群集数量

--tensor-parallel-size 2：指定每个节点所使用的显卡数量

--gpu-memory-utilization 0.9：限制每个显卡使用量

http://www.hskmm.com/?act=detail&tid=9683

相关文章：

故障处理：ORA-00600 2252故障处理

Android 平台 MAUI 应用更新服务

SQL脚本:查询指定SQL的统计信息(cursor,awr)

逆向分析之if语句与循环语句的分析

读书笔记：索引组织表（IOT）：让数据库查询飞起来的黑科技

损失曲线出现先下降后上升

【IEEE出版】第六届信息科学与并行、分布式处理国际学术会议（ISPDS 2025）

*控制线设计

索引器的用法

《sklearn机器学习——特征提取》 - 指南

Windows 10 11 Boot Fix

ubuntu 安装 milvus

面向多模态检索的向量数据库对比分析和技术选型：Elasticsearch、Milvus、Pinecone、FAISS、Chroma、PGVector、Weaviate、Qdrant

终结AI幻觉：Amazon Bedrock如何用形式化方法重塑可信AI

我代表编程导航，向大家道歉！

cf div2 1051 E（视角转换，构造+思维）

从“被动监控”到“主动优化”：MyEMS 重构能源管理价值的路径

phoenix 导出sql执行结果到文件中

论文解读-《Graph Retrieval-Augmented Generation A Survey》 - zhang

AI编程问题处理与传统网页搜索对比分析

APP 内测分发的核心逻辑与流程，虾分发让效率翻倍

WPF Canvas 网格线背景样式

C++ 最开始的地方

ClkLog埋点与用户行为分析系统：架构升级与性能全面提升

常见开源安全工具列表

ARC187 做题记

SAP物料自动记账科目设置总结

SpringBoot启动流程

NVR设备ONVIF接入平台EasyCVR视频融合平台智慧小区视频监控一站式建设方案