NCCL代码很开眼界,看到了很多以前不知道的技巧,一个是intra-kernel synchronization between GPUs 不是使用event 而是__threadfence_system,这个开销比event 小很多吗?主要不需要CPU参与,有一篇GGAS文章描述这种做法。我倒是不太认同这种做法 ...
Using the Law to Break Discriminatory Barriers to Fair Lending for Home OwnershipHarris, David H. JrN.c.cent.l.j