当前位置: 首页 > news >正文

DailyPaper-2025-9-29

LongLive: Real-time Interactive Long Video Generation

https://arxiv.org/abs/2509.22622

LongLive is a frame-level autoregressive framework for real-time and interactive long video generation, addressing efficiency and quality challenges through causal attention, KV-recache, streaming long tuning, and short window attention.

AR 做长视频生成和交互. 如果 AR w/o KV cache 会出现新的 prompt 影响很大从而使画面突变, 而 AR w/ KV cache 又会出现新的 prompt 不起作用的情况.

引入了一种 KV-recache 技术, 在快速切换的边界处利用已生成的帧以及新的 prompt 重新计算 KV cache. 相当于把上述两种方法互补了一下.

8-/10

Quantile Advantage Estimation for Entropy-Safe Reasoning

https://arxiv.org/abs/2509.22611

Quantile Advantage Estimation stabilizes reinforcement learning with verifiable rewards by addressing entropy issues and improving performance on large language models.

和 2509.20712 一样切入点是稳定 RL 中的熵变化. 但是他同时通过实验指出熵坍缩和熵激增不是一个 hyperparameter tuning problem, 而是 baseline 设计问题.

提出方法 QAE, 将每个查询组的平均值替换为 K 分位数基线, 将 query 分类:较难时仅强化罕见的成功, 较易时仅惩罚还存在的失败. 通过将 query 分为难易两类从而有不同的 baseline 和不同的奖励函数. 然后证明了这种办法确实避免了熵坍缩和熵激增, 保证了训练稳定性.

7/10

WoW: Towards a World omniscient World model Through Embodied Interaction

https://arxiv.org/abs/2509.22642

WoW, a 14-billion-parameter generative world model trained on robot interactions, demonstrates improved physical intuition through SOPHIA's guidance and achieves state-of-the-art performance on physical consistency and causal reasoning in video.

这个 WoW 工作量确实有点 wow, 他们主张视频模型不能仅仅被动观察而是从具体经验构建对物理的理解. 直觉来说确实.

Pipeline 本质没有很 novel, 就是生成模型 + VLM 做了验证.

这个 WoWbench 有点东西, 它 data 来源一部分是 RoboMIND 这种数据然后做偏 motion 的评估, 但是它 claim 物理还有待进一步考究, 又加上了点 world knowledge 的 data 感觉还挺好的.

这东西也可以放进 Embodied AI 试试? 感觉 Steve series 用这个优化一下又是一篇新文章.

8/10

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

https://arxiv.org/abs/2509.22576

Entropy-regularized Policy Optimization (EPO) addresses exploration-exploitation challenges in multi-turn environments with sparse rewards, improving performance in tasks like ScienceWorld and ALFWorld.

依旧在熵上做文章.

在多轮对话或多步任务中, 早期决策会层层影响后续回合, 单步熵不足以反映整个 trajectory 的不确定性, 所以直接改成在整条 trajectory 上计算熵, 再对 batch 取平均.

为了保证熵不会突变, 又引入了历史参考熵来维护, 要求不能超过这个区间, 否则就有惩罚.

如果按照 2509.22611 所说, 这些 token-level trick 都不用去做了?

6/10

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

https://arxiv.org/abs/2509.21880

RL-ZVP, a novel reinforcement learning algorithm, leverages zero-variance prompts to improve the accuracy and pass rate of Large Language Models in math reasoning tasks.

在 zero-variance prompt 里优势函数全为 0 梯度不会更新.

这个就是对 reward 没有区分度的回答从策略的不确定性(熵)中制造信号, token 分布更确定就是低熵,更随机就是高熵.

6-/10

http://www.hskmm.com/?act=detail&tid=21340

相关文章:

  • gpd winmax2 fedora42 睡眠秒唤醒问题
  • 国企人力资源管理系统怎么选?内行人推荐这8款,功能、服务双保障
  • spring service注入命名规则
  • 完整教程:基于岗课赛证的中职物联网专业“综合布线课程”教学解决方案
  • tensorflow加载和预处理信息
  • linux查询磁盘空间,查询指定目录的空间 df命令
  • 轻松规划房贷:用好公积金贷款,让梦想之家触手可及
  • milvus使用的etcd空间整理
  • 本土化战略赋能:Gitee如何领跑中国DevOps黄金赛道
  • 打印机错误0x0000709,问题排查和修复指南
  • k8s使用的etcd空间清理
  • MyBatis 与 JPA 的核心对比
  • 2025.9.29 测试
  • 深度学习(CVAE)
  • c# aot orm 框架测试 mysql
  • 洛谷题单指南-进阶数论-P2303 [SDOI2012] Longge 的问题
  • PK-2877电流互感器在高频脉冲电源模块测试中的应用方案
  • VC++ 使用OpenSSL创建RSA密钥PEM档案
  • CF1699D Almost Triple Deletions
  • QMT回测模式为什么要在副图进行
  • DSA:DeepSeek Sparse Attention
  • 荒野猎手出击!启明智显ZX7981PO:专治各种恶劣环境的5G插卡路由器
  • AWS CDK重构功能发布:安全重构基础设施即代码
  • 开发即时通社交软件APP首选系统,可定制开发,可提供源码
  • 死锁的处理策略-死锁的检测和解除
  • springboot3 mybatis 数据库操控入门与实战
  • 解决winform调用wpf窗体时原窗体缩小的问题
  • 重构 Java 系统服务!JBoltAI 框架以 AIGS 方案开启企业数智化转型
  • 本土化优势凸显:Gitee如何成为中国开发团队的效率引擎
  • Linux系统OOM终止Oracle进程