当前位置: 首页 > news >正文

vLLM常用参数解释

vLLM常用参数解释

--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有请求的 prompt + 已生成的 token)
--max-num-seqs 64:一个 batch 中最多同时处理的请求数量(即并发序列数),即使总 token 数远低于 8192,也不能超过 64 个请求同时处理

 --quantization awq:指定量化方式

--dtype=auto:自动选择精度

--trust-remote-code 

 --distributed-executor-backend=ray :通过ray群集运行

--pipeline-parallel-size 2  :指定节点群集数量

--tensor-parallel-size 2:指定每个节点所使用的显卡数量

--gpu-memory-utilization 0.9:限制每个显卡使用量

http://www.hskmm.com/?act=detail&tid=9683

相关文章:

  • 故障处理:ORA-00600 2252故障处理
  • Android 平台 MAUI 应用更新服务
  • SQL脚本:查询指定SQL的统计信息(cursor,awr)
  • 逆向分析之if语句与循环语句的分析
  • 读书笔记:索引组织表(IOT):让数据库查询飞起来的黑科技
  • 损失曲线出现先下降后上升
  • 【IEEE出版】第六届信息科学与并行、分布式处理国际学术会议(ISPDS 2025)
  • *控制线设计
  • 索引器的用法
  • 《sklearn机器学习——特征提取》 - 指南
  • Windows 10 11 Boot Fix
  • ubuntu 安装 milvus
  • 面向多模态检索的向量数据库对比分析和技术选型:Elasticsearch、Milvus、Pinecone、FAISS、Chroma、PGVector、Weaviate、Qdrant
  • 单词翻转
  • 终结AI幻觉:Amazon Bedrock如何用形式化方法重塑可信AI
  • 我代表编程导航,向大家道歉!
  • cf div2 1051 E(视角转换,构造+思维)
  • 从“被动监控”到“主动优化”:MyEMS 重构能源管理价值的路径
  • phoenix 导出sql执行结果到文件中
  • 论文解读-《Graph Retrieval-Augmented Generation A Survey》 - zhang
  • AI编程问题处理与传统网页搜索对比分析
  • APP 内测分发的核心逻辑与流程,虾分发让效率翻倍
  • WPF Canvas 网格线背景样式
  • C++ 最开始的地方
  • ClkLog埋点与用户行为分析系统:架构升级与性能全面提升
  • 常见开源安全工具列表
  • ARC187 做题记
  • SAP物料自动记账科目设置总结
  • SpringBoot启动流程
  • NVR设备ONVIF接入平台EasyCVR视频融合平台智慧小区视频监控一站式建设方案