2025 12
12.3
- https://arxiv.org/abs/2512.03036
- VisAudio:基于视频的双耳音频生成,同时还做了一个数据集,包含了上千个视频+音频的数据集
- https://arxiv.org/abs/2512.02556
- DeepSeek V3.2:主要介绍了其中的稀疏注意力机制,以及一些在RL中的稳定性机制
- 稀疏注意力机制:DSA,先走一遍相关度计算,随后选择top-k的key value进行attention计算
- RL机制:GRPO的改进,无偏KL,Off-policy 序列掩码,Keep-Routing,Keep-Sampling-Mask
12.8
- https://appletea233.github.io/think-while-edit/
- edit-thinker:通过一个edit model+MLLM的交织行为,进行强化学习,完成test time scaling,先进行edit,然后再经过MLLM的分析给出调整的指令,继续edit,直到达到标准
- 以GPT-4.1为教师,训练了一个MLLM,会给出指令调整,作为一个可插拔的组件和各种edit model放在一起,并且提升性能
- https://arxiv.org/abs/2512.04810
- EMMA:高效的生成理解统一模型,构建了一个更高压缩率的编码器,并且稍微修改了模型架构

12.10
- https://arxiv.org/abs/2512.07461
- Native Parallel Reasoner,并行推理的训练

- https://arxiv.org/abs/2512.07469
- Unified Video Edit model 在video edit中引入了思维链,避免之前的edit工作要先一个模型做mask的方案,将先mask再编辑的方案统一到一个模型中
- https://arxiv.org/abs/2512.07778
- DMVAE,常规的Vae遵从高斯约束,这篇论文尝试显式地约束Vae压缩地空间,并且测试哪些空间流形对于生成最有效
- https://arxiv.org/abs/2510.27688
- https://shaochenze.github.io/blog/2025/CALM/
- CALM 这是一篇比较早的工作,是在连续空间内,做语言模型,预测一个连续向量而不是离散的
12.12
- https://arxiv.org/pdf/2512.08296
- Agent Scaling,Google发表的研究,用来分析Multi-Agent System(MAS),在Agent数量改动以及通信机制变更的情况下,会有什么样的性能变化。做了很多有效的消融实验,剥离提示词工程的影响,来真正的分析Multi-Agent system的性能

以上是不同的通信策略

这是MAS在不同任务上的影响,于单个Agent系统(SAS)相比
12.15
- https://zhuanlan.zhihu.com/p/1982065391216923209
- CLIP到Qwen3-Omni,多模态模型的融合的一份综述
- https://arxiv.org/abs/2512.11749
- SVG-T2I,Kling的工作,RAE的衍生工作,不止在ImageNet,在高分辨率场景下,做无VAE的生成模型,使用DINO-v3的特征
- https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf
- OpenAI的工作,极致稀疏的神经网络,可能是可解释性的突破口,全连接层的特性导致其的黑盒状态
12.16
看到一篇帖子,是对nips 2025做的架构改进的总结
- Attention
- Gated Attention Qwen的工作,在attention计算中增加一个门控模块,因为每次softmax计算的加权和都为1,但是并不是每次的Q都和Key都有足够的联系,因此有时候attention计算引入了不少噪音
- 核心操作在于在Attention计算之后,利用gate score进行加权

1 2 3 4 5 6 7 8 9 10 | |
-
FFN
-
KV-cache
- MTLA Multi-head temporal latent attention 在时间维度上压缩KV-cache,这个工作基于Deepseek的MLA
- 这种方案不是Training-Free的,引入了投影层的来做降采样
- DeepSeek的MLA也是一个用于优化KV-cache存储的工作,用low-rank分解的方案,存储KV矩阵的低秩分解,可以达到4-6倍的压缩率
但是这个做法并不够Make Sense,尤其是在NLP任务上,引入了过强的先验,因为并不是相邻的两个token,就是有足够的相关性,足以让它们压缩到一个更小的空间,这个做法往往会带来比较大的性能损失
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 | |

- Nemotron,nvidia开源的大模型,相比于市面上的开源大模型做了较大的改动
- 架构:将Moe层和Mamba-2混合,降低成本,无需维护KV-cache(因为大量的层都使用了mamba,只有少部分层使用Attention的需要维护KV-cache)
- 架构:latent-moe,在进行专家路由之前,先进行降维,再计算完成之后进行升维
- 推理:MTP multi-token prediction
- 训练:NVFP4训练
- Long Context,使用mamba层来避免Rope的扩展退化,mamba作为维护一个状态的递归神经网络,其天然有位置编码的能力(因为早进入网络的token衰减得更多)



12.20
- https://arxiv.org/abs/2512.13507
- Seedance 1.5 pro:先进的音视频同出模型,可以借这个模型感受一下音视频同出模型现在的是怎么做的
- https://arxiv.org/pdf/2512.15603
- Qwen-image-layered: 个人认为是一个非常用应用场景的模型(这种功能应该在传统cv里就有人做了),该模型已经开源权重,其作用是将生成好的图像进行自动分层
- 区别在于传统的做法精度比较低,并且无法通过语义描述进行分割;但是相比于以前的模型,Qwen-image-layered是一个很大的模型,其资源消耗也大得多
12.22
- https://arxiv.org/pdf/2512.13687
- MiniMax 提出的一种新型的vision tokenizer,对比VAE,其能够更好的scale,针对VAE的奇怪现象(指一是数据的scale无法促进重建效果的提高,二是重建效果的提高也无法使得生成的效果变好)
- VAE的特性:只关注重建,过度关注底层纹理 -> latent space 一定要关注high-level语义
- VTP:同时优化文本-图像对齐,自监督,重建三种损失,构建更加优质的latent space
- VTP的训练
- 模型架构:用的是vit
- 训练目标:Vision reconstruction(VAE) + Self supervised learning(like DINO v2) + Contrastive learning(Clip)
- MiniMax 提出的一种新型的vision tokenizer,对比VAE,其能够更好的scale,针对VAE的奇怪现象(指一是数据的scale无法促进重建效果的提高,二是重建效果的提高也无法使得生成的效果变好)


- https://github.com/thu-ml/TurboDiffusion
- TurboDiffusion,一篇efficient diffusion的工作,组合了一个优化方案,使得video generation推理速度加快了上百倍,例如在5090上执行wan 2.1 1.3B 480P 可以达到1.9s的生成速度
- 组合了SageAttention + SLA + rCM 蒸馏 + W8A8 量化
- https://arxiv.org/pdf/2512.17901
- Law of Reasoning 从推理本身入手分析reasoning model,是否对于复杂问题,消耗的token线形增长,是否对于组合的问题,消耗的token和分别解决这两个问题相似,论文发现组合的问题会导致reasoning消耗的token过度增长,针对这种现象,合成了一波数据解决
- 但是个人认为这篇论文的思考并不是很make sense,一来本身这些问题很少出现在语境中,二来这种解决方案也不是很优雅,个人感觉还是得依赖RL的算法来解决这类问题,这种造特定数据解决特定现象感觉是在打补丁
- Law of Reasoning 从推理本身入手分析reasoning model,是否对于复杂问题,消耗的token线形增长,是否对于组合的问题,消耗的token和分别解决这两个问题相似,论文发现组合的问题会导致reasoning消耗的token过度增长,针对这种现象,合成了一波数据解决