2025.6
6.17
- https://arxiv.org/abs/2506.10821
- Video deep research: 使用工具+推理模型构建agent,可以在视频理解任务上超越最强的多模态模型
- https://arxiv.org/pdf/2502.14855
- Prompt-to-Leaderboard:训练LLM,构建LLM-judge,能够构建细粒度 or 特定场景的benchmark
- 这个理解可能不够准确,原论文中有详细数学推导
- https://app.pageon.ai/presentation/75305
- 构建PPT的工具
6.18
- https://www.arxiv.org/abs/2506.13585
- MiniMax-M1 使用了lightning attention,并且提出了一种新的RL算法
- https://github.com/mindsdb/mindsdb
- 开源的高star的AI DB 连接器,专门针对超大规模数据,内置MCP
- https://arxiv.org/abs/2506.14728
- Alita 作者的后续工作,基于MCP的Agent蒸馏,让教师Agent将自己的能力整理成几个MCP让学生Agent集成
6.19
- https://mp.weixin.qq.com/s/dgJeGezpctJ03o_hJ4KSwg
- Pine AI 初创的一个演讲,主要内容是关于现阶段AI agent的一些insight
- Pine AI 主要业务是让Agent去帮用户去打客服电话
- 其对AI agent现阶段的落地的两个问题,一个是速度和精度无法同时兼顾,一个是无法从经验中学习
- 长思考模型太慢,不支持实时交互,快思考又不足够支持有效决策
- 经验中学习和人机交互是现阶段Benchmark中缺乏的部分,同时经验中学习的范式也是加速的一条路径
- 随后他也讲述了解决这两个问题的技术方案
- 响应速度:快慢思考相结合,快思考模型和慢思考模型同时运行,在慢思考模型在决策的时候,快思考模型应该快速响应来在某些时候拖延时间,例如询问更详细的细节,需要依赖SFT+RL来实现两个model的配合
- 响应速度:写代码来加速,将任务固化成一个RPA轨迹,来实现加速,这个轨迹需要有足够的复用性
- 经验积累:优秀的知识库设计(memory)
- Pine AI 初创的一个演讲,主要内容是关于现阶段AI agent的一些insight
- https://arxiv.org/pdf/2406.12045
- Tau-bench: 测试LLM的 tool call 能力和特定领域规则掌握能力,Bench中提供了工具的API和Prompt,LLM需要基于这些内容来完成一些专业领域的问答服务
6.20
-
https://arxiv.org/abs/2503.23278
- 一篇关于MCP技术的综述,主要讲述了关于MCP server可能出现的一些问题,例如恶意的工具Prompt,隔离性更好的工具运行环境,版本管理和权限管理
-
https://www.speakeasy.com/product/mcp-server
- https://www.stainless.com/
这两个平台都是从API帮你生成文档和MCP servers,但都是闭源的
- https://github.com/metorial/mcp-containers
- 将数百个主流mcp server都各自打包成docker,提供隔离的环境
- https://arxiv.org/abs/2506.05813
- 针对表格数据的学习推理,做了一个Agent专门用来学习表格数据
6.23
- https://www.moonbitlang.cn/
- AI原生的编程语言,内部有很多的features来支持高效地AI coding,包括代码局部性地保证,更有效地文档
6.25
- https://github.com/embabel
- 基于Spring的Agent框架,由Spring的作者创建,其中一个很神奇的特点在于其在任务规划上采用了传统算法,而不是LLM来做规划,LLM只使用在具体的任务执行上,其认为这种方案可以有效避免LLM规划总会有概率出错的问题
- https://deckspeed.com/zh-Hans
- Product Hunt 榜首的PPT生成工具
- https://phoenix.new/
- 一个容器化的Agent编程框架,针对Phoenix这个web框架优化,匹配上fly.io和Github,可以做到编程的结果一键部署