Cerebras wafer scaler computing带着几个问题刷Cerebras 硬件、并行算法、系统设计1) 它落地情况怎么样? 2)尽管它可以放得下很大的模型,但是总有放不下的模型,怎么并行?3)它比现在大家习惯的类似megatron、deepspeed的并行架构,到底区别在哪儿? 它改变了什么、优势在哪儿?劣势在哪儿? 4)从单个算子角度,它怎么驾驭7...