当前位置: 首页 > news >正文

MOE模型

MOE 模型

Qwen3MoeForCausalLM((model): Qwen3MoeModel((embed_tokens): Embedding(151936, 2048, padding_idx=151643)(layers): ModuleList((0-47): 48 x Qwen3MoeDecoderLayer((self_attn): Qwen3MoeAttention((q_proj): Linear(in_features=2048, out_features=4096, bias=False)(k_proj): Linear(in_features=2048, out_features=512, bias=False)(v_proj): Linear(in_features=2048, out_features=512, bias=False)(o_proj): Linear(in_features=4096, out_features=2048, bias=False)(q_norm): Qwen3MoeRMSNorm((128,), eps=1e-06)(k_norm): Qwen3MoeRMSNorm((128,), eps=1e-06))(mlp): Qwen3MoeSparseMoeBlock((gate): Linear(in_features=2048, out_features=128, bias=False)(experts): ModuleList((0-127): 128 x Qwen3MoeMLP((gate_proj): Linear(in_features=2048, out_features=768, bias=False)(up_proj): Linear(in_features=2048, out_features=768, bias=False)(down_proj): Linear(in_features=768, out_features=2048, bias=False)(act_fn): SiLU())))(input_layernorm): Qwen3MoeRMSNorm((2048,), eps=1e-06)(post_attention_layernorm): Qwen3MoeRMSNorm((2048,), eps=1e-06)))(norm): Qwen3MoeRMSNorm((2048,), eps=1e-06)(rotary_emb): Qwen3MoeRotaryEmbedding())(lm_head): Linear(in_features=2048, out_features=151936, bias=False)
)
http://www.hskmm.com/?act=detail&tid=28100

相关文章:

  • 2025航空插头厂家最新推荐榜:M8 航空插头, m12航空插头, 航空插头公母对接, 航空插头5芯, 航空插头三芯, 航空插头4芯, 航空插头12芯等类型全覆盖,专业定制与可靠品质
  • go使用root用户进行调试
  • 如何反制免费项目管理软件的套路
  • 智能技术与先进制造国际会议(ITAM 2025)
  • 2025智慧工地工程协同项目交付管理软件系统平台公司推荐榜:项目全周期的智能中枢,助力建筑行业数字化转型
  • 1、在pyhcarm中安装包和指定镜像源
  • iOS 26 系统流畅度深度剖析,Liquid Glass 视效与界面滑动的实际测评 - 指南
  • 重庆初阳科技车辆计数厂家:多维度赋能城市建设与工程精细化管理
  • 使用testcenter打出动态流量
  • coze手册
  • css动画已经执行过一次如何再次执行?
  • 缓存监控--来源于网络
  • 20232319 2025-2026-1 《网络与系统攻防技术》实验一实验报告
  • 2025 年兽药厂家最新推荐榜:级企业技术专利与服务能力全景解析,养殖户选品权威指南
  • 2025 最新隔音板源头厂家口碑推荐榜:阻尼 / 聚酯纤维等全品类适配,资深企业与新锐品牌精选聚酯纤维/墙面/降噪/玻镁/顶部隔音板厂家推荐
  • Google play 内部测试流程
  • 软工第三次作业
  • 全球化部署几种方案
  • 基于MATLAB的路面裂缝检测识别
  • HDU6794:Tokitsukaze and Multiple
  • 当下环境通缩分析
  • 使用qt读取系统字体库,并进行英文名称映射
  • gitlab配置aws的s3作为docker镜像的存储
  • 阿克曼函数
  • 10.10
  • shell脚本监控ssl证书到期时间
  • AI如何通过卫星图像识别刺猬栖息地
  • rust 模块和引用
  • moectf2025-reverse-wp
  • 国标GB28181网页直播平台EasyGBS如何构建智慧社区一体化视频监控方案?