最终,SecBench全量数据集由以上两部分数据组成,共包含44823道选择题和3087道问答题,是目前规模最大的网络安全评测数据集。 3 SecBench数据分布 图3与图4分别表示了SecBench的选择题与问答题的数据分布情况: 打开网易新闻 查看精彩图片 图3. SecBench:44823道选择题标签分布 打开网易新闻 查看精彩图片 图4. SecB
为了高效构建SecBench数据集并评测具有挑战性的问答题,我们提出了基于大模型的自动化数据标注和评测流程。每一条SecBench的数据都被准确地自动标注到其对应的评测维度。此外,通过构建自动化的问答题评测流程,SecBench能够高效地评估模型在回答问答题(SAQ)方面的能力。 SecBench包含44823道选择题和3087道问答题,从质和量...
我们提出SecBench,大规模+多维度对大模型的网络安全能力进行评测的数据集。SecBench包含有44823道选择题和3087道问答题,从不同形式,不同考察能力,不同语言,多个子领域维度对大模型进行评测,从质与量两方面极大扩充了目前的网络安全评测数据集。 SecBench的细节详见文章: 发布的部分数据详见:...
为了高效构建SecBench数据集并评测具有挑战性的问答题,我们提出了基于大模型的自动化数据标注和评测流程。每一条SecBench的数据都被准确地自动标注到其对应的评测维度。此外,通过构建自动化的问答题评测流程,SecBench能够高效地评估模型在回答问答题(SAQ)方面的能力。 SecBench包含44823道选择题和3087道问答题,从质和量...
图2 展示了 SecBench 数据集的构建过程,分为以下两步: ●初始数据集构建:我们从开源的高质量数据中进行清洗和收集,构建初始数据集。通过大模型(LLM)的自动标注,我们获得了 10551 道高质量的选择题。 ●大规模数据集构建:为了进一步提升数据集的质量和规模,我们举办了一场面向公众的网络安全数据集构造挑战赛。通过...