Yi-34B的中文能力表现也异常突出,在C-Eval中文权威榜单排行榜上超越了目前所有的开源模型。对比大模型标杆GPT-4icon,在CMMLU、E-Eval、Gaokao 三个主要的中文指标上,Yi-34B 也具有绝对优势。Yi-6B的中文能力表现也非常突出,不仅在同等参数规模的模型中主要指标都是位居榜首,甚至超越了一些更大参数规模的模型。
中国开源大模型正在崛起,拥有庞大AI人才库和中文数据优势,对美国限制影响有限。 1. 美国修订法案拟禁止类ChatGPT等开源AI大模型出口至中俄,旨在防止技术被用于网络攻击等,目前提案处于委员会辩论阶段。 2. 美国可能采取限制AI大模型出口措施,但中国开源大模型发展迅速,禁令难以完全遏制其发展,且中国拥有丰富AI人才和研发...
关于GPT训练,核心问题是大量数据。如果数据量不够,可能应用范畴会小一些,但垂直领域可能有机会。以开源模型为基础可以节省成本。 中文互联网上的语料质量差距较大,但数量还是有一定优势。我们测评了GPT的水平,GPT4.0与3.0差距很大,百度要达到这个水平得靠自己了。问题在于数据量和质量,创业公司可能缺乏数据源。解决方案...
在医疗健康咨询的单轮问答和多轮对话评测中,该模型相对于目前的医学对话大型模型表现出显著的优势。课题组同时公开了包含 47 万条高质量监督微调 (SFT) 数据的DISC-Med-SFT数据集,并将模型参数和技术报告一同开源。 #AI医生助理 GIF 发布于 2023-09-01 21:37・IP 属地福建 赞同1 分享收藏 ...
以开源模型为基础可以节省成本。中文互联网上的语料质量差距较大,但数量还是有一定优势。我们测评了GPT的水平,GPT4.0与3.0差距很大,百度要达到这个水平得靠自己了。问题在于数据量和质量,创业公司可能缺乏数据源。解决方案可能是合作发布和提供制度。数据量对AI很重要,我们目前还处于早期阶段。视觉数据和文本数据处理方式...