DeepSeek Coder是源于Meta的Llama,而且现在的MoE架构和Meta、谷歌都没啥关系。DPSK大模型蒸馏数据的巅峰是V2(和谷歌Gmini并驾齐驱的蒸馏之王),V2.5就在下降,现在V3和R1这些所谓的蒸馏痕迹都是些胎里带然后没有数据对齐的毛病[捂脸] DeepSeek 为啥满世界都在讲低成本?技术到底牛不牛?