研究论文地址https://github.com/nlpxucan/WizardLM/blob/main/WizardMath/WizardMath_Paper.pdf 据论文,Google PaLM 的正确率不超过56.5%,LLaMA2不同参数规模的正确率最高不超过56.8%,GPT-3.5的正确率为57.1%,GPT-4的正确率为92%。 而天工的GSM8K测试正确率为80%,这代表天工大模型整个基座的推理能力在同...