主打代码、数学、精准体验。 MMLU应该比较难看,没有公布,公布了多语言版MMLU,最高显示是意大利语版,82%左右。估计MMLU在84-85%,比Llama 3.1 70B的86%要低。 代码方面HumanEval : GPT-4o>Mistral>SonnetMBPP:Sonnet>Opus>GPT-4o>Mistral没有把Llama拉进来,拉了个Cohere来垫背。法国小强真不容易,和Cohere凑一...
在Java代码方面,只有3个模型(Anthropic Claude 3 Opus,DeepSeek-v2-Coder,GPT-4o)有100%的可编译代码,而在Go方面没有任何模型达到100%。"下面的图表显示了所有编程语言(Go和Java)的可编译响应百分比。我们可以看到一些模型甚至没有产生一个可编译的代码响应。更糟糕的是,所有评估模型中有75%甚至无法达到50%的...
寒武纪20日晚间公告称,公司不直接从事人工智能最终应用产品(例如类ChatGPT应用)的开发和销售。 2、市值超1200亿元的韦尔股份(603501)披露的2023年一季报显示,而其扣非净利润仅为2196.45万元,同比下滑98%。 3、三六零(601360),年内一度大涨超200%,市值近1500亿,以致于周鸿祎和胡欢离婚也被市场质疑成为减持铺路。