2025.6

6.17

https://arxiv.org/abs/2506.10821
- Video deep research: 使用工具+推理模型构建agent，可以在视频理解任务上超越最强的多模态模型
https://arxiv.org/pdf/2502.14855
- Prompt-to-Leaderboard：训练LLM，构建LLM-judge，能够构建细粒度 or 特定场景的benchmark
- 这个理解可能不够准确，原论文中有详细数学推导
https://app.pageon.ai/presentation/75305
- 构建PPT的工具

https://www.arxiv.org/abs/2506.13585
- MiniMax-M1 使用了lightning attention，并且提出了一种新的RL算法
https://github.com/mindsdb/mindsdb
- 开源的高star的AI DB 连接器，专门针对超大规模数据，内置MCP
https://arxiv.org/abs/2506.14728
- Alita 作者的后续工作，基于MCP的Agent蒸馏，让教师Agent将自己的能力整理成几个MCP让学生Agent集成

https://mp.weixin.qq.com/s/dgJeGezpctJ03o_hJ4KSwg
- Pine AI 初创的一个演讲，主要内容是关于现阶段AI agent的一些insight
  - Pine AI 主要业务是让Agent去帮用户去打客服电话
  - 其对AI agent现阶段的落地的两个问题，一个是速度和精度无法同时兼顾，一个是无法从经验中学习
  - 长思考模型太慢，不支持实时交互，快思考又不足够支持有效决策
  - 经验中学习和人机交互是现阶段Benchmark中缺乏的部分，同时经验中学习的范式也是加速的一条路径
- 随后他也讲述了解决这两个问题的技术方案
  - 响应速度：快慢思考相结合，快思考模型和慢思考模型同时运行，在慢思考模型在决策的时候，快思考模型应该快速响应来在某些时候拖延时间，例如询问更详细的细节，需要依赖SFT+RL来实现两个model的配合
  - 响应速度：写代码来加速，将任务固化成一个RPA轨迹，来实现加速，这个轨迹需要有足够的复用性
  - 经验积累：优秀的知识库设计（memory）
https://arxiv.org/pdf/2406.12045
- Tau-bench: 测试LLM的 tool call 能力和特定领域规则掌握能力，Bench中提供了工具的API和Prompt，LLM需要基于这些内容来完成一些专业领域的问答服务

https://arxiv.org/abs/2503.23278
- 一篇关于MCP技术的综述，主要讲述了关于MCP server可能出现的一些问题，例如恶意的工具Prompt，隔离性更好的工具运行环境，版本管理和权限管理
https://www.speakeasy.com/product/mcp-server
https://www.stainless.com/

这两个平台都是从API帮你生成文档和MCP servers，但都是闭源的

https://github.com/metorial/mcp-containers
- 将数百个主流mcp server都各自打包成docker，提供隔离的环境
https://arxiv.org/abs/2506.05813
- 针对表格数据的学习推理，做了一个Agent专门用来学习表格数据

https://www.moonbitlang.cn/
- AI原生的编程语言，内部有很多的features来支持高效地AI coding，包括代码局部性地保证，更有效地文档

https://github.com/embabel
- 基于Spring的Agent框架，由Spring的作者创建，其中一个很神奇的特点在于其在任务规划上采用了传统算法，而不是LLM来做规划，LLM只使用在具体的任务执行上，其认为这种方案可以有效避免LLM规划总会有概率出错的问题
https://deckspeed.com/zh-Hans
- Product Hunt 榜首的PPT生成工具
https://phoenix.new/
- 一个容器化的Agent编程框架，针对Phoenix这个web框架优化，匹配上fly.io和Github，可以做到编程的结果一键部署