大家好,今天来写写基于Transformer架构的端到端检测模型:Deformable Detr。如果你也读过Deformable Detr的论文和代码,你可能会发现相比于原生detr,它确实不好理… 阅读全文 赞同 473 条评论 分享 收藏喜欢 如何看待商汤的Deformable DETR?能否取代Faster-RCNN范式?
总体来看,目前veRL支持 fsdp 和 Megatron 两种并行方式。而使用后者无可避免要做一些手工活,包括“构建Megatron格式的模型”,“开发对应的saver和loader方法”等等。看示例代码,这里没有用transformer engine构建模型,用的是更原生的megatron自定义模型,我猜可能又是一名TE精度对齐受害者😂我觉得可以从简单一些的fsdp入...