- Llama3-70B在开放式写作和创造性问题上击败了其他排名靠前的模型,但在更封闭的数学和编程问题上输了。 - 当提示变得更难时,Llama3-70B相对于顶级模型的胜率显著下降。 - 去重或异常值对胜率没有显著影响。 - 在质量上,Llama3-70B的输出比其他模型更友好、更会话化。