GLM-4.6
GLM-4.6是智谱AI于2025年9月30日发布并开源的新一代大模型,在核心能力上实现显著提升,尤其在代码生成、长上下文处理及智能体应用等方面表现突出.
GLM-4.6 是智谱最新的旗舰模型,其总参数量 355B,激活参数 32B。GLM-4.6 所有核心能力上均完成了对 GLM-4.5 的超越,具体如下:
高级编码能力:在公开基准与真实编程任务中,GLM-4.6的代码能力对齐Claude Sonnet 4,是国内已知的最好的Coding模型。
上下文长度:上下文窗口由128K→200K,适应更长的代码和智能体任务。
推理能力:推理能力提升,并支持在推理过程中调用工具。
搜索能力:增强了模型在工具调用和搜索智能体上的表现,在智能体框架中表现更好。
写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。
多语言翻译:进一步增强跨语种任务的处理效果。
CodeGeeX已集成GLM4.6
生成单测
DeepSeek V3.2 Exp
DeepSeek-V3.2-Exp是深度求索公司于2025年9月29日发布的实验性大模型,核心创新与特点如下:
技术架构
稀疏注意力机制:引入自研的DeepSeek Sparse Attention(DSA),通过细粒度稀疏化处理长文本,显著提升训练和推理效率,计算成本降低近9倍
该机制采用128维FP8精度Lightning Indexer优化索引过程,同时保留FP16核心计算精度
性能验证:在公开评测集上表现与前代V3.1-Terminus持平,长序列上下文支持达160K(华为云适配)
成本优化
API降价:调用成本降低50%以上,新价格为每百万tokens输入0.2元(缓存命中)/2元(未命中),输出3元
开源生态:模型及GPU算子(TileLang/CUDA版本)已在Hugging Face和ModelScope平台开源,支持国产芯片(寒武纪、昇腾、海光DCU)深度协同
参考
docs.bigmodel.cn
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp
今天先到这儿,希望对AI,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变
如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。