前一阵子遇到一个问题,程序打包后,在某个界面总是崩溃,device log只打印了exited abnormally with signal 11: Segmentation fault 网上找了下相关信息,发现这个错误大多是跟内存操作相关,可是我们debug调试的时候明明没问题的呀? 于是用release证书调试,果然程序在那个界面发生了崩溃,检查原因,原来某同事写的一个成员变量...
that process rank 1 with PID 10294 on node node241 exited on signal 11 (Segmentation fault)....
前一阵子遇到一个问题,程序打包后,在某个界面总是崩溃,device log只打印了exited abnormally with signal 11: Segmentation fault 网上找了下相关信息,发现这个错误大多是跟内存操作相关,可是我们debug调试的时候明明没问题的呀? 于是用release证书调试,果然程序在那个界面发生了崩溃,检查原因,原来某同事写的一个成员变量...
cuda 12.6 nccl 2.22.3 [gpu-node09:332629:0:332629] Caught signal 11 (Segmentation fault: address not mapped to object at address 0x10) info.txt