2026 1

1.1

Video Models are Zero-Shot reasoner and learner
- Google Veo3 的论文，展示了Veo3在经过大规模训练之后涌现出来的Zero shot的能力，能够完成训练数据以外的各种任务，展现了惊人的涌现能力

1.2

mHC https://arxiv.org/abs/2512.24880
- DeepSeek的论文，对于残差流进行了修改，将恒定为1的残差流转换成一个可学习的目标，并且将其进行Manifold-Constrained防止残差流变得过大
Evaluating Parameter Efficient Methods for RLVR
- 对于RLVR任务中高效参数微调方案的一个分析实验，包括Lora，DoRA、AdaLoRA等变体

1.4

JavisGPT
- 音视频编辑的模型，通过一个QwenVL+Dit拼接的架构，完成了多模态的理解和生成，包括编辑，并且着重优化了音视频协同的内容
- 输入包括video的输入，音频的输入，文本提示词。基于QwenVL，然后适配了一个Lora来进行微调。最后LLM会将输出给一个Dit，让其输出编辑好的视频音频内容

生成和理解是否需要纳入在统一的框架中，现有的方案似乎仍然没有指出一条明确的路径。从nano-banana的角度来看，似乎目前最好的方案还是让生成理解进行分离，作为一个系统进行处理

https://arxiv.org/pdf/2512.24873 Agent Learning EcoSystem
- 是阿里团队做一个完整且系统的Agent学习框架，将阿里之前做的很多Agent相关的工作串了起来，并且致力于解决训推不一致，力图构建足够Strong的Agent RL baseline
- ROLL：支持异步 rollout-训练解耦、动态 GPU 分时复用、chunk 级信用分配的 RL 训练框架。训练框架
- ROCK：万级并发、安全隔离、GEM API 兼容的沙箱环境引擎，实现轨迹采集与运行时验证。核心是沙盒
- iFlow CLI：统一上下文管理、可配置工作流的代理框架，保证“训练-部署”零差异。核心是上下文管理

Recursive Language Model
- 这篇论文主要针对的是超长上下文的问题，其让LLM将上下文作为一个环境变量去处理，而不是每次都一股脑地把所有上下文都塞进模型中
- 让模型自己编写Python代码来拆解上下文和调用自己，来实现上下文的高效处理

1.8

https://nitrogen.minedojo.org/
- nvidia的工作，收集了超过40000+h游戏视频，覆盖超过1000款游戏，并且提取了动作片段还进行了打标，用这些数据训练一个游戏Agent

Loza
- 美团开发的稀疏注意力机制，基于MLA，将标准的MLA拆成两部分，全量MLA+SSA（Stream Sparse Attention）

1.9

NextFlow
- 用Next Scale Prediction来做生成理解统一模型
SemanticGen
- 使用两阶段的生成方案，先生成High-Level的语义表征，再在VAE的空间中生成细粒度的纹理结构，当然与此相对的，训练也要训练两部分，Semantic Generator和VAE Latent Generator

1.12

Sida Peng老师整理的2025年关于Video World Model的相关论文，可以借这张图来查漏补缺

VideoAuto-R1
- 关于Video Understanding做RL的论文，用两阶段的输出方案，首先让其直接输出答案，根据答案的置信度再判断要不要进行Cot
MIMO-v2-Flash
- 小米的flash模型的技术报告，在架构上，和很多新的模型一样采用了混合架构，它采用了滑动窗口+Global Attention的混合架构
- 在滑动窗口中引入了可学习的Attention Sink Bias，在softmax的分母里增加一个可学习的项，在模型不需要关注当前窗口内Token的机会，将注意力分配给虚拟的Sink
- 滑动窗口大小仅有128 token，在消融实验中效果比512 token好
- 引入了SD做MTP

1.13

Plenoptic Video Generation
- 这篇文章做的是多视角的Camera Control，核心贡献是在解决长时记忆的一致性，在不断的镜头变化之后，生成的视频还能保持一致性，比如在视角转一圈之后，回来看到的还是一样的场景
- 多视角的re-render比单视角的更加困难，多视角一次性渲染多个视角的视频，要求保证这几个视频之间能够保证足够的一致性。该论文解决的任务中，定义为输入video+多个相机轨迹，输出多个相机轨迹对应的video
- 解决长时记忆的一致性的核心是给Dit的注入条件
  - 最Native的方案，将所有的视频都塞进去，但是无疑是极大的开销，尤其是高分辨率视频的场景下
  - 用Block-Diffusion的方式，放弃一次生成多视角的视频，而是按照自回归的方案一个个生成，在逐个生成的时候，不可避免的上下文也会越来越长，因此就要做检索生成，这篇文章基于3D Fov来做检索生成，上下文中只塞入和当前视角相关的视频上下文。比如我们某个视角要看房子的背面，我们主要关注其他同样会划过房子背面的视角

Video Deep Research
- 使用Deep Research以及一系列的工具，来做Video Understanding的增强（其实感觉不是很make sense，也就是补足一些世界知识和一些时效性的场景会有效
BabyVision
- 做了一个Benchmark来评测VLM的能力和婴幼儿的视觉能力的差异，在这个测评集合中最强大的VLM的能力也不如6岁的儿童

1.14

Engram
- DeepSeek的新论文，对Transformer架构进行了修改，新增了一种条件记忆机制称为Engram，研究者认为Transformer架构中缺少原生的查找模块，被迫使用计算来模拟检索机制
- 检索模块采用现代的N-gram模块，将部分MOE替换为Engram内存，可以达到一个权衡，并且在长上下文任务上有很大的提升
- Engram的模块的功能包括检索+融合两个部分，经过压缩的分词器之后，通过一个Multi-Head Hash，最后拼接成一个记忆向量，后面过一个Context-Aware Gating

在相同的参数预算下，Moe参数和Engram所占内存之间存在U形曲线的兑换关系

并且在推理过程中，Engram可以做到存算分离，Engram模块的计算和中间层的输出无关，仅仅和输入的token序列有关，也就是说我们可以将Engram模块的计算和Transformer-Block的计算解耦开，并且此种方案可以有效利用CPU内存

Motion Attribution for Video Generation
- nvidia的论文，训练数据中的视频如何影响视频生成模型中的运动输出，因为Image生成模型已经做得非常优秀，人们往往致力于将Image Model的一些做法迁移过来，包括对于纹理，色彩等内容的优化。但是这些过程往往忽略了视频生成模型最为独特的内容，运动，运动和时间流动紧密联系，是视频生成模型最重要的特点
- 核心是提供了一种数据筛选的方案，来使得训练的模型有更好的运动一致性

Data Attribution

这个是数据处理领域的一个概念，用于研究每条数据对于模型训练带来的影响，这个领域的发展大概有这些阶段

Ex-DL时代，前DL时代，模型较小，可以用每次更新之后模型对于测试集的变化（这里需要一个Influence Functions）来衡量，这一步需要矩阵求逆，在现代DL模型下时效
现代DL方案，会用类似TracIN，TRAK的方法来近似数据影响的计算
Diffusion Model：对于Diffusion Model的衡量和其他方案有些差异，因为Diffusion不同时间步有不同的表现，因此需要norm

而这些方案对于Video diffusion领域都失效了，传统的Diffusion Data Attribution的方法会导致其关注外形而不是动作，并且在Long Video下计算开销也会扩大，这也是这篇论文的核心贡献

其做法是，首先我们有个query data，这是我们想要优化的一个动作，比如是漂浮这个现象，我们要根据这个现象去找到训练数据集合中与其正相关的数据，那么怎么找呢，就是对于两个视频都求diffusion model的梯度，先计算MSE Loss，然后对这个Loss进行一个运动的Mask遮罩，后续的梯度计算中只关心正在运动的物体，这样子计算出来的梯度就是和运动相关的，然后再把这两部分的梯度，计算相似度，就可以得出相应的正负效果

1.15

OctoCodingBench
- MiniMax发布的新的关于Coding的Bench，是一个非常详尽的过程监督的Benchmark，会监督模型在解决Coding任务的过程中，有没有遵从用户指示，不止关注最终的测试是否通过

MemGovern
- 经验库+Code Agent，希望Code Agent在执行编程任务的时候，能够参考一些人类的成功经验来提高成功率，标记了130+k从Github的获取的成功经验作为Code Agent的经验库，但是感觉涨点不是很高
- 个人认为作为编程辅助的工具的话，如果Code Agent在无法处理任务的时候，能够帮我从Github，StackOverflow上帮我搜索相关的解决方案，并且列出来给我看，这个是一个我会比较喜欢的功能

1.16

https://arxiv.org/pdf/2601.10355
- 美团的Paper，一个从真实数据中合成带工具调用的训练的pipeline，用于提升Agent能力

1.21

https://arxiv.org/pdf/2601.08521
- 这篇论文系统论述了GRPO及其变体中的bias，其效果导致在rollout数量不足的情况下，GRPO对于低难度的Prompt过度利用，并且对于高难度的Prompt没有充分的探索
Sparse RL
- 将KV-cache压缩技术纳入到RL的框架中，做了一些修正措施，来保证训练的稳定性，但是个人感觉有点tricky
- trick 1 对于稀疏计算和稠密计算差异过大的rollout，选择拒绝采样
- trick 2 重新调整重要性采样，将稀疏和稠密的加权进来
Undeterminism in LLM
- 这是来自thinking machine的一篇有趣的文章，解释了如何从LLM中得到一个确定的可复现的结果
- 人们往往认为将LLM call的temperature调整为0就可以将LLM转化为一个稳定的映射，但事实并非如此，之前人们往往将其归因为硬件计算的一些不一致性，比如在硬件计算上，浮点数是不符合结合律的

(0.1 + 1e20) - 1e20
>>> 0
0.1 + (1e20 - 1e20)
>>> 0.1

而在LLM里的kernel计算中，可能会在每次调用中出现加法顺序的变化，因为并发的线程的完成时间是无法预估的，后续的累加顺序自然也无法预估，这是很自然的假设（这种根据线程执行完成的顺序执行累加的方案称为原子加法）。

然而事实上是，LLM的前向中其实基本不包含这种影响加法顺序的方案，那么我们重新思考LLM的不确定性，可以得到一个结论就是LLM的输出收到批次的影响

我们的推理服务器可以做到是确定的，但是其他用户的requests，实际会影响到你的requests，看似LLM的Kernel中都可以做到不存在原子加法，但是在Batch操作下，原子加法又重新出现了，我们来看一个简单的例子，RMSNorm

# x: [batch_size, hidden_dim]
# weight: [hidden_dim]
def rms_norm(x, weight):
    return x * torch.rsqrt(torch.mean(x ** 2, dim=-1, keepdim=True)) * weight

当批次很大，超过GPU的核心数量的时候，我们可以让每个core处理一个requests，此时顺序是一致的，但是当批次较少的时候，工程师们为了充分利用硬件系统的性能，会考虑拆分一个requests到不同的core上面，最后引入原子加法，从而这里会导致不一致性

Inference Physics
- Meta的论文，用Training-Free的方案，增加Video生成的物理一致性，算是Test-time scaling吧，利用的best-of-N以及用VJEPA Surprise做Score Guidance

https://dawning-road.github.io/blog/abc-bench
- ABC Bench，旨在构建真实后端系统中评测Agent Coding能力的评测集合

Spatial Tree
- 这篇工作形式化了对于空间智能的理解，主要针对的是多模态理解能力，其用四个层级来描述模型的空间理解能力，并且对此构建了Benchmark

1.22

lr trick in RL
- 这是一篇xAI的工程师的博客，这篇博客中讲述了除了训推一致性以外的RL训练崩溃的原因。对于同一批数据进行RL的时候，简单的信号容易被提前获取，此时这批数据对于模型而言，信号逐渐减弱，噪声逐渐增加，进一步导致了模型容易出现训练崩溃的问题
- 之前人们对于RL训练稳定性的关注点主要是在训推一致性和重要性采样上面，但是这里指出的信噪比的问题，引导向基础的学习率调整策略
https://arxiv.org/abs/2601.14750
- Rot: Render of Cot 这篇工作做了我之前想做的一个事情，将思维链的过程用图像表示，之前有很多的工作都是在连续的空间里面做推理，但是这样就导致了推理的过程是黑盒。
- 这篇文章的训练分为两个部分，一个是训练一下对齐，让VLM会输出连续向量，并且作为监督的输出是转换成图像的文本思维链，第二部分是正式的训练，正式的训练不对思维链做监督，只对输出的结果做监督

但是我个人认为这个方案做得不好，因为它用的是VLM的encoder，这个encoder没法做重建，所以其同样无法将中间的Cot显示出来，只能通过之前一些人们分析image latent space的方案来分析Cot，应该用具有重建和理解能力的encoder才对，甚至我觉得现有的vision encoder未必适合这个任务，带重建和推理的Loss重新训一个encoder或许是解法

1.23

https://dagroup-pku.github.io/ReVidgen.github.io/
- 字节的paper，在具身这个领域做video generation任务的测评，内部的做法或许值得我们借鉴，并且也开源的数据集

JudgeRLVR
- 小米的论文，这篇论文认为现在的RLVR导致模型的探索过多，导致生成序列冗长，可以用两阶段的训练方式，第一阶段先训练模型的判断能力，第二阶段再训练生成，能让模型在探索的早期就对多条探索路径有自己的判断，再不降低正确率的情况下可以做到使得生成序列更加简短

1.26

https://llm-in-sandbox.github.io/
- 提供了一个很小的仅有1.1GB的通用计算机沙盒，为一个Ubuntu系统，通过这一个系统的描述，就可以全方位提高LLM在各个benchmark上的表现，尤其是强模型的API，可以很好地在这个系统上做上下文学习
flexibility trap in diffusion llm
- 这篇论文展示了Diffusion LLM声明的任意顺序生成的优势，其实在训练的时候会引入问题，一个合理的解释是这样的，严格的AR模型，让模型在生成中直面不确定性，因此会有低置信度的token生成，但是在diffusion llm的随机生成中，模型会学习机制优先生成置信度更高的后续token，而通过这些生成的前后token的双向注意力下，中间那个本身是低置信度的token此时的探索空间就被限制了

上述思路导致的结果就是，diffusion llm在相同的情况下，pass@k的性能不如ar模型，看似自由的生成顺序反而限制了探索空间

显然这一点在RL中至关重要，在diffusion llm的生成路径下，一些关键的high-entropy token的entropy反而是下降了，从而也就导致了对于diffusion llm的rl效果不佳

在这篇论文的实验中，其将diffusion llm在rl训练中仍然保持ar的生成顺序，但是在推理中再盖用任意顺序的生成结果，我们也可以看到，任意的生成顺序不是任何效益都没有，其在pass@1的性能往往会好于其ar顺序