LongLive: Real-time Interactive Long Video Generation
https://arxiv.org/abs/2509.22622
LongLive is a frame-level autoregressive framework for real-time and interactive long video generation, addressing efficiency and quality challenges through causal attention, KV-recache, streaming long tuning, and short window attention.
AR 做长视频生成和交互. 如果 AR w/o KV cache 会出现新的 prompt 影响很大从而使画面突变, 而 AR w/ KV cache 又会出现新的 prompt 不起作用的情况.
引入了一种 KV-recache 技术, 在快速切换的边界处利用已生成的帧以及新的 prompt 重新计算 KV cache. 相当于把上述两种方法互补了一下.
8-/10
Quantile Advantage Estimation for Entropy-Safe Reasoning
https://arxiv.org/abs/2509.22611
Quantile Advantage Estimation stabilizes reinforcement learning with verifiable rewards by addressing entropy issues and improving performance on large language models.
和 2509.20712 一样切入点是稳定 RL 中的熵变化. 但是他同时通过实验指出熵坍缩和熵激增不是一个 hyperparameter tuning problem, 而是 baseline 设计问题.
提出方法 QAE, 将每个查询组的平均值替换为 K 分位数基线, 将 query 分类:较难时仅强化罕见的成功, 较易时仅惩罚还存在的失败. 通过将 query 分为难易两类从而有不同的 baseline 和不同的奖励函数. 然后证明了这种办法确实避免了熵坍缩和熵激增, 保证了训练稳定性.
7/10
WoW: Towards a World omniscient World model Through Embodied Interaction
https://arxiv.org/abs/2509.22642
WoW, a 14-billion-parameter generative world model trained on robot interactions, demonstrates improved physical intuition through SOPHIA's guidance and achieves state-of-the-art performance on physical consistency and causal reasoning in video.
这个 WoW 工作量确实有点 wow, 他们主张视频模型不能仅仅被动观察而是从具体经验构建对物理的理解. 直觉来说确实.
Pipeline 本质没有很 novel, 就是生成模型 + VLM 做了验证.
这个 WoWbench 有点东西, 它 data 来源一部分是 RoboMIND 这种数据然后做偏 motion 的评估, 但是它 claim 物理还有待进一步考究, 又加上了点 world knowledge 的 data 感觉还挺好的.
这东西也可以放进 Embodied AI 试试? 感觉 Steve series 用这个优化一下又是一篇新文章.
8/10
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
https://arxiv.org/abs/2509.22576
Entropy-regularized Policy Optimization (EPO) addresses exploration-exploitation challenges in multi-turn environments with sparse rewards, improving performance in tasks like ScienceWorld and ALFWorld.
依旧在熵上做文章.
在多轮对话或多步任务中, 早期决策会层层影响后续回合, 单步熵不足以反映整个 trajectory 的不确定性, 所以直接改成在整条 trajectory 上计算熵, 再对 batch 取平均.
为了保证熵不会突变, 又引入了历史参考熵来维护, 要求不能超过这个区间, 否则就有惩罚.
如果按照 2509.22611 所说, 这些 token-level trick 都不用去做了?
6/10
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
https://arxiv.org/abs/2509.21880
RL-ZVP, a novel reinforcement learning algorithm, leverages zero-variance prompts to improve the accuracy and pass rate of Large Language Models in math reasoning tasks.
在 zero-variance prompt 里优势函数全为 0 梯度不会更新.
这个就是对 reward 没有区分度的回答从策略的不确定性(熵)中制造信号, token 分布更确定就是低熵,更随机就是高熵.
6-/10