1.大模型创新:架构优化加速涌现 2024年,大模型架构创新成为焦点,多种混合架构挑战Transformer的垄断地位,RWKV、Lambda等新架构涌现,旨在解决算力瓶颈问题,推动自然语言处理和计算机视觉领域的技术革新。 2.Scaling Law泛化:推理能力成关键 随着GPT-3等模型的成功,Scaling Law从参数规模转向推理能力,推理时计算成为新趋势。
根据Lambda.ai最新的H100 2.19刀/hrs的价格,抛开一般给大客户都是三四折不谈,我们假设就是这个价,可以进行简单的数学计算,(3500/2.19)* (60/13.8)= 7000张H100卡时(实际上由于打折只会更多),运行一个Task就需要7000张H100卡时,可想而知,O3的运行成本有多高,但也让我们看到了Reasoning模型的上限。另一方面来...