rk3588的ai功能
该型号cpu支持 6TOPS NPU、Mali-G610 MP4 GPU。
支持针对rk系列开发的RKNN框架,能够完成模型转换,量化,推理,性能评估,内存评估和量化分析功能。
TOPS是Tera Operations Per Second的缩写,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。
GOPS(Giga Operations Per Second),MOPS(Million Operation Per Second)算力单位。1GOPS代表处理器每秒钟可进行十亿次(109)操作,1MOPS代表处理器每秒钟可进行一百万次(106)操作。
目前在其上面已有模型能够完成的工作有:图像分类(clip),图片语义分割(deeplabv3),文字转换语音(mms_tts),人像分割(ppseg),语音识别(whisper),人脸检测(retinaface),实时目标识别等(ppyoloe)等。
并支持 其他框架,如Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch产生的模型转换为rknn模型。
deepseek R1
R1采用三阶段训练策略:
- 基础阶段:1.2T tokens的多语言文本(中英为主)基于冷启动数据,进行有监督微调
- 强化阶段:加入300B tokens的代码/数学专项数据
- 对齐阶段:使用RLHF优化10B条人类反馈数据
R1引入多目标奖励模型,同时优化:
- 事实准确性(0.85权重)
- 逻辑一致性(0.75权重)
- 有害内容抑制(0.9权重)
混合专家系统(MoE)通过动态路由机制将输入分配值不同专家子网络。包含128个专家模块,每个模块参数量为2.3B,总参数量达294B(激活参数量37B
通过量化压缩技术(如4bit量化)保持较高精度。
R1引入滑动窗口注意力(SWA),将全局注意力分解为局部窗口(512 tokens)和稀疏全局连接,使长文本处理效率提升3倍。
R1微调要点:
- 仅需更新路由网络和领域专家(约12B参数)
- 使用LoRA技术可将显存占用从120GB降至32GB
deepseekV3
V3训练策略
V3则通过连续预训练在2.8T tokens的单一语料上完成训练,数据分布更均匀但缺乏领域强化。
V3仅使用单一准确性奖励函数,导致在复杂推理场景下表现较弱。
DeepSeek-V3采用稠密Transformer架构,参数量固定为67B,通过深度扩展(128层)提升模型容量。
V3则沿用传统多头注意力,通过扩大上下文窗口(32K tokens)提升长文本能力。
V3微调要点:
- 必须全参数微调(67B参数)
- 建议使用ZeRO-3优化器分阶段训练