为什么cpu下的kernel做broadcast的elementwise compute的时候需要提供输入的type,而cuda下的kernel做broadcast的elementwise compute的时候却不需要提供呢? 答:cpu下需要用".data<T>"的方式来获取指针所指的数据;cuda下用了 using Traits = phi::funcs::FunctionTraits<Functor>; using ArgsT = typename Traits::Args...