在知识产权方面,AI大模型信息透明度有待提升。测评发现,没有任何一家AI大模型主动告知训练模型所使用的数据集(包括版权数据)出自哪里,该项得分均为0。至于特殊群体保护、投诉反馈,各家的得分差异较小——特别是在用户友好设计加分项,基本未有亮眼表现。仅有4款国产大模型允许用户撤回声音信息 具体而言,在个人...
1月13日,新京报AI研究院发布第二期中国AI大模型测评报告——《大语言模型产品传媒方向能力测评调研报告》(下称《报告》),这也是继2024年7月发布首份大模型赋能传媒能力报告半年后,新京报贝壳财经第二次对国内主流11款大语言模型在信息搜集能力、新闻写作能力、事实核查与价值观判断能力、翻译能力以及长文本能力五项...
SuperCLUE本次测评的是腾讯混元新一代大语言模型预览版(Turbo-Preview),模型采用全新的混合专家模型(MoE)结构,从训练数据、模型架构、训练策略,训练框架,软硬件体系等方面实现了全链路自研,模型一方面在性能上实现大幅提升,另一方面也实现了推理成本的显著下降,有着较大的应用潜力。作为独立的第三方中文大模型基...
1月13日,新京报AI研究院发布第二期中国AI大模型测评报告——《大语言模型产品传媒方向能力测评调研报告》(下称《报告》),这也是继2024年7月发布首份大模型赋能传媒能力报告半年后,新京报贝壳财经第二次对国内主流11款大语言模型在信息搜集能力、新闻写作能力、事实核查与价值观判断能力、翻译能力以及长文本能力五项维度...
5月17日,北京新型研发机构智源研究院举办大模型评测发布会,发布并解读了对国内外140余个开源和商业闭源的语言及多模态大模型的能力评测结果。此次测评首次引入人类学生熟悉的学科测试,让AI考生和三年级到高三学段的人类考生平均水平一较高下。根据大模型企业在语言模型、多模态理解与生成模型以及K12学科测验上的综合...
语言模型主观评测结果显示,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。多模态理解模型客观评测结果显示,图文...
5月6日记者获悉,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是知名的第三方中文语言理解测评基准CLUE(The Chinese ...
当前图像理解类多模态大模型(vlm)蓬勃发展,在医疗诊断、自动驾驶、电商客服等多个场景取得了突破,该类多模态模型通常接收单个/多个图像或视频,通过视觉编码器提取视觉特征token,经过多模态投影层进行模态间的对齐及融合后,接入大语言模型基座(llm)实现视觉理解算法能力。
激发中国经济新动力,相约2024年的夏天。7月3日下午,新京报贝壳财经夏季年会“‘通往未来 向新有AI”主题论坛在北京正大中心举行。会上,新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。本次报告经北京大学、清华大学、浙江大学、中国传媒大学等高校教授的...