ADBench(NeurlPS22)是最大的AD基准,拥有57个数据集。更具体地说,ADBench使用的数据集涵盖了许多应用领域,包括医疗保健(例如疾病诊断)、音频和语言处理(例如语音识别)、图像处理(例如目标识别)、金融(例如金融欺诈检测)等等,我们在最后一列展示了这些信息。对于那些数据集样本量小于1000的,我们重新采样样本量到1000,...
ADBench(NeurlPS22)是最大的AD基准,拥有57个数据集。更具体地说,ADBench使用的数据集涵盖了许多应用领域,包括医疗保
数据来源 汇总大语言模型LLM的评测基准数据集(BenchMarks)_llm benchmark-CSDN博客 GitHub - leobeeson/llm_benchmarks: A collection of benchmarks and datasets for evaluating LLM. 2. 推理能力 2.1 GSM8K 包含8.5K 个小学数学问题,需要基本到中级的数学运算。