跳转至

2025.6

6.17

  • https://arxiv.org/abs/2506.10821
    • Video deep research: 使用工具+推理模型构建agent,可以在视频理解任务上超越最强的多模态模型
  • https://arxiv.org/pdf/2502.14855
    • Prompt-to-Leaderboard:训练LLM,构建LLM-judge,能够构建细粒度 or 特定场景的benchmark
    • 这个理解可能不够准确,原论文中有详细数学推导
  • https://app.pageon.ai/presentation/75305
    • 构建PPT的工具

6.18

  • https://www.arxiv.org/abs/2506.13585
    • MiniMax-M1 使用了lightning attention,并且提出了一种新的RL算法
  • https://github.com/mindsdb/mindsdb
    • 开源的高star的AI DB 连接器,专门针对超大规模数据,内置MCP
  • https://arxiv.org/abs/2506.14728
    • Alita 作者的后续工作,基于MCP的Agent蒸馏,让教师Agent将自己的能力整理成几个MCP让学生Agent集成

6.19

  • https://mp.weixin.qq.com/s/dgJeGezpctJ03o_hJ4KSwg
    • Pine AI 初创的一个演讲,主要内容是关于现阶段AI agent的一些insight
      • Pine AI 主要业务是让Agent去帮用户去打客服电话
      • 其对AI agent现阶段的落地的两个问题,一个是速度和精度无法同时兼顾,一个是无法从经验中学习
      • 长思考模型太慢,不支持实时交互,快思考又不足够支持有效决策
      • 经验中学习和人机交互是现阶段Benchmark中缺乏的部分,同时经验中学习的范式也是加速的一条路径
    • 随后他也讲述了解决这两个问题的技术方案
      • 响应速度:快慢思考相结合,快思考模型和慢思考模型同时运行,在慢思考模型在决策的时候,快思考模型应该快速响应来在某些时候拖延时间,例如询问更详细的细节,需要依赖SFT+RL来实现两个model的配合
      • 响应速度:写代码来加速,将任务固化成一个RPA轨迹,来实现加速,这个轨迹需要有足够的复用性
      • 经验积累:优秀的知识库设计(memory)
  • https://arxiv.org/pdf/2406.12045
    • Tau-bench: 测试LLM的 tool call 能力和特定领域规则掌握能力,Bench中提供了工具的API和Prompt,LLM需要基于这些内容来完成一些专业领域的问答服务

6.20

  • https://arxiv.org/abs/2503.23278

    • 一篇关于MCP技术的综述,主要讲述了关于MCP server可能出现的一些问题,例如恶意的工具Prompt,隔离性更好的工具运行环境,版本管理和权限管理
  • https://www.speakeasy.com/product/mcp-server

  • https://www.stainless.com/

这两个平台都是从API帮你生成文档和MCP servers,但都是闭源的

  • https://github.com/metorial/mcp-containers
    • 将数百个主流mcp server都各自打包成docker,提供隔离的环境
  • https://arxiv.org/abs/2506.05813
    • 针对表格数据的学习推理,做了一个Agent专门用来学习表格数据

6.23

  • https://www.moonbitlang.cn/
    • AI原生的编程语言,内部有很多的features来支持高效地AI coding,包括代码局部性地保证,更有效地文档

6.25

  • https://github.com/embabel
    • 基于Spring的Agent框架,由Spring的作者创建,其中一个很神奇的特点在于其在任务规划上采用了传统算法,而不是LLM来做规划,LLM只使用在具体的任务执行上,其认为这种方案可以有效避免LLM规划总会有概率出错的问题
  • https://deckspeed.com/zh-Hans
    • Product Hunt 榜首的PPT生成工具
  • https://phoenix.new/
    • 一个容器化的Agent编程框架,针对Phoenix这个web框架优化,匹配上fly.io和Github,可以做到编程的结果一键部署