obsidian/ongoing/Agentic AI Infra.md

https://mp.weixin.qq.com/s/es2ZIRDTQQ_Z0fifyKzodQ

Agent执行和传统的Serverless无状态服务相比, 最大的区别是需要维持大量的Agent执行状态, 有可能还需要执行过程中尽量能够有一些checkpoint, 在某些执行失败后可以回退到前一个snapshot状态继续执行.

Agent本身具有一定的身份权限去处理很多敏感的数据, 因此它的执行环境的安全性是一个非常值得关注的话题, 传统的容器, 例如一些AWS Lambda服务则无法提供这样的安全隔离性.


事实上这样的ShortTerm/LongTerm Memory也就构成了一个存储上的冷热分层. 一方面像OSS这样的存储需要热缓存, 同时也需要像S3 Vectors那样构建一定的搜索能力. 另一方面更重要的是, `在模型多个Agent并行执行的时候, 还有很多数据一致性的处理`. 以前写过一篇埋了一些伏笔

但是在传输过程中需要有很好的拥塞控制和优先级调度避免对DeepEP这样的流量产生干扰.

又要保证Cache的命中率, 又不会让Context爆掉.


![[250722-113804.png]]


https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus


当然在Infra层是否能够也去考虑MultiAgent Runtime Level的RL, 就像很多推荐系统一样能够做到近实时的更新, 针对用户的MAS系统做一些类似于Embedding Table的扩展来构成RL工作流, 挺值得研究的.