跳转至

2025.7

7.1

  • https://arxiv.org/abs/2506.21545
    • 微软的数据处理的paper,系统论述了如何优化数据的组织的方式来提高语言模型的性能,在数据内容和模型架构不变的情况下如何提高模型性能
    • 与传统的数据打乱和混合方式不同,该工作对data进行了评分,按照这个评分进行筛选和排序再进行训练
    • 并且在训练的过程中,还会进行有选择地重复数据的训练Folding Order来避免模型遗忘等问题
  • https://arxiv.org/abs/2506.22419
    • Meta提出的Agent benchmark,其中的task是论文复现,复现GPT2的训练加速工作,这个加速工作来自于一个竞赛,竞赛的每个提交都有对应的训练脚本和说明,测试Agent能否基于上述信息做出有效的复现,对于相关竞赛地评审工作也比较有实际意义
    • 测试使用的Agent框架是Scaffolds extends AIDE ,AIDE是一个exploration agent的框架

Workflow Agent和Exploration Agent的区别,在看论文的阶段注意到现在Agent的方向逐渐分化出两个目标 - Workflow Agent,是人类知道该怎么做,但是希望借助Agent的能力将类似的工作自动化(Manus,各种MultiAgent) - Exploration Agent,是人类不知道怎么做,例如解决一些科研学术难题,借助Agent的能力进行探索(AIDE,ML-Master),往往会采用Tree or Greedy的方案进行探索

  • https://arxiv.org/abs/2506.16499
    • 上交提出的Agent,在MLE-Bench上刷到了SOTA,MLE-Bench中有75个Kaggle上的真实机器学习任务组成
    • 目标是达到推理和搜索的平衡统一,未进行训练,代码即将开源
    • 搜索树的节点是一个方案的某个状态,树的边是指行动,例如Draft,Debug or Improve
    • 核心是应用了一种自适应的memory机制

7.2

  • https://fmhy.net/ai
    • 全球各种免费资源汇总链接,包括娱乐资源和开发资源
  • https://sierra.ai/
    • 开发客服Agent服务,相比于之前的pine.ai是帮用户去向客服打电话,从而帮助用户避免反复的打各种电话消耗的精力,Sierra.ai的服务就恰好相反,是去自己作为客服去接用户的电话
    • 在Agent沟通这个领域和pine.ai有相同的考量,比如如何保证实时性和充分的思考,同时也有一些差异化的思考,比如用户的电话语音往往会带有背景杂音,因此其在背景音过滤和判断上做了比较多的努力
    • 需要集成主流CRM,CDP,ERP系统
    • 其构建了一个Agent OS来帮助快速搭建需要的Agent system
    • LangSmith是LangChain开发的一个组件,用于检测Agent行动的每一步的Context,用来分析每一次LLM call是否都给出了准确的上下文
    • 不仅限于基于LangGraph开发的Agent,是否需要付费?
  • https://arxiv.org/abs/2506.24119
    • 一个用自我博弈来代替奖励函数进行迭代的RL方案
  • https://arxiv.org/abs/2506.23235
    • 用逆强化学习,将通用大模型转换成通用的Reward Model,也即每个模型可以自己从自己的rollout中计算奖励

7.3

7.4

  • https://github.com/anthropics/dxt
    • Anthropics官方推出的服务,用于解决MCP的环境冲突问题,可以做到一键安装MCP extension而不需要安装Node,Python等环境

7.7

  • https://github.com/MemTensor/MemOS
    • 一个较为完备的Memory系统,今天刚刚开源,应该是sota的,甚至在部分场景超越了Full-context的表现,可以借此项目对于Memory,Rag,Graph DB等系统有一个完整的了解
  • https://arxiv.org/abs/2507.02592
    • 阿里在WebDancer上继续做的Agent工作,是Deep research agent RL的工作
  • https://arxiv.org/abs/2507.02259
    • 字节的Memory Agent,设计了一种Memory机制可以让Agent自主地修改,将Memory机制作为工具,用RL进行训练,可以在长任务中达到很好地效果

7.8

  • GEO,与SEO相对的概念,设计自己的网站,使其内容布局更容易出现在Gemini的捕获路径上
  • https://github.com/zaidmukaddam/scira
    • 开源版的perplexity,结合了很多的搜索源

7.9

  • [2507.05169] Critiques of World Models
    • 对于当前World Model的批判,认为World Model不应该局限于长视频生成领域,应该引入更加丰富的模态,并且提出World Model应该是Agent未来的模拟沙盒
  • https://pokee.ai/
    • 现阶段开放了一个workflow agent给我们,根据用户的需求构建Workflow,随后执行
    • 目前看了一下它的工作流还是,拟定计划+收集信息+执行三步走,比较通用的工作流,但是其似乎对提示词比较敏感,同时也经常出现搜索出错卡住的情况
    • 没有发现回退和循环的设计,但是其搜索显示了其是并发搜索

7.11

7.14

  • https://mirix.io/
    • 这个memory系统本身就是一个multiagent系统,优势在于对于多模态信息的处理能力很强,附带有自动截图的功能,推测和ComputerUse的相性会比较好
  • https://www.arxiv.org/abs/2507.07969
    • 基于RL的模仿学习?
  • https://www.arxiv.org/abs/2507.07955
    • LLM的No-tokenizer方案,H-net

7.15

7.16

7.17

7.18

7.25

7.28

7.29