Engine是无HTTP的纯推理引擎,集成各组件,直接通过进程间通信实现低延迟推理。 Runtime在 Engine 基础上增加 HTTP 服务层,通过 FastAPI 提供同步和异步接口及流式输出支持,适合独立服务部署。 整体架构从 GPU 资源管理到分布式并行控制,提供了模块化、扩展性强的多层接口,为 OpenRLHF 和更复杂