当前位置: 首页 > news >正文

DailyPaper-2025-9-26

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

https://arxiv.org/pdf/2509.21268

Variance-Aware Sampling and large-scale CoT data improve multimodal reasoning models by stabilizing RL fine-tuning and enhancing performance on benchmarks.

定义的 VPS 得分很 naive 很直觉真没看出创新在哪. 然后在 VAS 采样的基础上加了个随机采样, 也没有创新点. 后文详细证明了虽然这个玩意很直觉很人类先验但是是对的.

训练是冷启动 + VAS, 也很 general.

效果看着还行, 而且 checkpoint 和数据集全开源了.

5/10

Seedream 4.0: Toward Next-generation Multimodal Image Generation

https://arxiv.org/abs/2509.20427

Seedream 4.0 is a high-performance multimodal image generation system that integrates text-to-image synthesis, image editing, and multi-image composition using a diffusion transformer and VAE, achieving state-of-the-art results with efficient training and inference.

字节新工作, 总体太工程了我也不是很懂 cv 模型训练, 效果看着是真好, 又 SOTA 了.

7+/10

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

https://arxiv.org/abs/2509.20712

A novel reinforcement learning algorithm, CE-GPPO, reintroduces gradients from clipped tokens to improve the exploration-exploitation balance in training large language models.

PPO 会裁剪目标函数里那种过大和过小的策略改变量的贡献, 然后这个工作在 backward 时候引入了超参数缩放区间之外对梯度的贡献. 这点确实之前没有想到过, 切入点挺好的.

缺点是这超参数是自己设置的, 虽然也做了不同超参数下的消融实验但是如果这玩意是自动的就好了.

6+/10

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

https://arxiv.org/abs/2509.21320

A scientific reasoning foundation model pre-trained on diverse scientific data supports multiple tasks and enhances cross-domain generalization and fidelity through specialized training techniques.

上海 AI Lab 的工作, 感觉可以看作他们 2507.17512 的一个小分支的延申和实践.

和 2507.17512 一起可以给 8-/10.

VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

https://arxiv.org/abs/2509.19803

A curriculum reinforcement learning framework dynamically adjusts training sample difficulty based on reward variance, improving LLM performance on mathematical reasoning tasks.

这个工作相当于把 Curriculum RL 动态了.

它提出说如果你一个问题对于模型过于简单或者过难, 它得分的期望就约等于 0/1, 如果得分方差过大那就可以说明适合这个模型当前训练阶段. 然后根据这个方差维护了一个 memory bank 来动态采样去训这个东西.

6+/10

http://www.hskmm.com/?act=detail&tid=17954

相关文章:

  • qq
  • 人文领域的创新乏力:当价值内卷遇上元人文AI的破局之光
  • SimCC: a Simple Coordinate Classification Perspective for Human Pose Estimation
  • 10.1.1 启用python达成第一个遗传算法
  • [iOS] OC高级编程 - 引用计数 (1) - 详解
  • 实验1 C语言输入输出和简单程序编写
  • PySide6 之鼠标事件写字板
  • 深入解析:golang基础语法(三)常量、指针、别名、关键字、运算符、字符串类型转换
  • 单B细胞技术如何实现兔单抗高通量高特异制备
  • HP激光墨盒换墨粉
  • unordered_map性能被吊打!我用基数树让内存池性能暴涨几十倍的秘密
  • 详细介绍:《 Linux 点滴漫谈: 一 》开源之路:Linux 的历史、演进与未来趋势
  • 深入解析:TENGJUN“二合一(2.5MM+3.5MM)”耳机插座:JA10-BPD051-A;参数与材质说明
  • JAVA第一天
  • JUC:CompletableFuture详解
  • 平替Jenkins,推荐一款国产开源免费的CICD程序 - Arbess
  • Polar靶场-Web中等题目记录(9-16)
  • C# Avalonia 15- Animation- CustomEasingFunction
  • C#进阶
  • 包机制
  • Tensorboard的使用
  • 【Spring Boot】自定义starter
  • PrintNightmare漏洞仍未终结:深入解析PnP配置绕过与防护方案
  • Go 1.26 内置函数 new 新特性
  • 基于BP神经网络的激光焊接数据预测
  • 重要公式 - Emi
  • apt 还是 uv
  • 软件构造中的数据处理(sql) 6章
  • 树的重心(邻接表)
  • 语音芯片怎样接? 语音芯片有哪些常见接口类型?