内容提示: ICS 35.240CCS L 70中 华华人民民共共和和国国国国家家标标准GB/T XXXXX—XXXX人工智能 预训练模型 第 2 部分:评测指标与方法Artificial intelligence — Pre-trained models —Part 2: Evaluation metrics andmethodXXXX - XX - XX 发布 XXXX - XX - XX 实施 文档格式:PDF | 页数:22 | ...
——第1部分:通用要求。目的在于定义制备或使用大规模预训练模型的人工智能系统的技术参考 架构和相关方活动,并提出通用技术要求。 ——第2部分:评测指标与方法。目的在于定义预训练模型评测内容、指标设置和评测方法。 ——第3部分:服务能力成熟度评估。目的在于定义大规模预训练模型服务能力成熟度评估框架, 规定大规...
随着人工智能技术的飞速发展,大模型已成为实现通用人工智能的关键驱动力。为了推动我国人工智能产业的创新发展,并发挥标准化的支撑保障作用,全国信息技术标准化技术委员会于2024年3月发布了《人工智能 预训练模型 第2部分:评测指标与方法》国家标准(工作组讨论稿),并启动了标准符合性测试工作。 近期,中国移动参与了中国...
微信公众号:计算机与网络安全 人工智能、算力算网资料自助下载 1200+人工智能、算力算网资料 粉丝群 -…
7大规模预训练模型系统技术要求5 7.1基础设施层5 7.2数据层6 7.3模型层6 7.4应用层7 7.5系统安全8 8大规模预训练模型能力评估方法8 8.1评估框架8 8.2评估指标9 8.3评估数据集要求11 8.4评估流程11 附录A(资料性)评估指标13 A.1客观评估指标13 A.2主观评估指标14 ...
ETL/特征工程的测试:在整个建模过程中主要可以分为特征工程和模型训练:在结构化数据中特征工程会涉及到大量的拼表,时序特征计算等等操作。 在图像数据中会涉及到各种图像增强算法(二值化,灰度化,角点提取,滤波去噪等等),在 NLP 领域里会涉及到文本切片,切词,词向量,语料库构建等等。如果你面对的是一个人工智能平台...
ETL/特征工程的测试:在整个建模过程中主要可以分为特征工程和模型训练:在结构化数据中特征工程会涉及到大量的拼表,时序特征计算等等操作。 在图像数据中会涉及到各种图像增强算法(二值化,灰度化,角点提取,滤波去噪等等),在 NLP 领域里会涉及到文本切片,切词,词向量,语料库构建等等。如果你面对的是一个人工智能平台...
所以人工智能系统需要一个更高效、持续的测试方法。 人工智能系统随着时间的变化,数据的演化,性能、输出结果也会发生变化,因此需要一个可持续的、可循环迭代的测试方法。能够尽快地去训练、测评、部署更新版的模型。这也是人工智能系统测试需要遵循的一个原则。
ETL/特征工程的测试:在整个建模过程中主要可以分为特征工程和模型训练:在结构化数据中特征工程会涉及到大量的拼表,时序特征计算等等操作。 在图像数据中会涉及到各种图像增强算法(二值化,灰度化,角点提取,滤波去噪等等),在 NLP 领域里会涉及到文本切片,切词,词向量,语料库构建等等。如果你面对的是一个人工智能平台...
因此需要一种很好的评测方法,来把这些 “作弊的” 模型给揪出来。 混淆矩阵 混淆矩阵是一个用于描述分类模型性能的矩阵,它显示了模型对于每个类别的预测结果与实际结果的对比情况。 以分类模型中最简单的二分类为例,对于这种问题,我们的模型最终需要判断样本的结果是 0 还是 1,或者说是 positive 还是 negative。