CMB-Clin 数据以如下的json形式保存,对于一个案例,会有标题和详细的描述,然后会有多个qa对,是比较常见的QA数据集的形式。 { "id": "2", "title": "结、直肠与肛管疾病 案例分析-痔", "description": "现病史\n(1)病史摘要\n 周XX,男,34岁,2年前无明显诱因反复出现肛门部肿物脱出,可自行回纳,1周...
CMB-Clin Item {System_prompt} <{Role_1}>:以下是一位病人的病例: {description} {QA_pairs[0]['question']} <{Role_2}>:... [n-question based on the len(QA_pairs)] CMB-Clin GPT-4 evaluation Prompt Click to expand You are an
我们选用了 7 个中文开源医疗模型(HuatuoGPT[1],BianQue-2[2],ChatMed-Consult[3],MedicalGPT[4],ChatGLM-Med[5],Bentsao[7],DoctorGLM[6]),2 个中文通用模型(ChatGLM-2[8],Baichuan-13B-Chat[9])以及 ChatGPT 和 GPT-4,在对齐超参的条件下,在 CMB-Exam 和 CMB-Clin 上对比他们的表现。 3.1 C...
我们选用了 7 个中文开源医疗模型(HuatuoGPT[1],BianQue-2[2],ChatMed-Consult[3],MedicalGPT[4],ChatGLM-Med[5],Bentsao[7],DoctorGLM[6]),2 个中文通用模型(ChatGLM-2[8],Baichuan-13B-Chat[9])以及 ChatGPT 和 GPT-4,在对齐超参的条件下,在 CMB-Exam 和 CMB-Clin 上对比他们的表现。 3.1 C...
为此,我们提出了中文医疗模型评估基准 CMB,其包括了不同临床职业、不同职业阶段考试中的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。通过测评实验,我们发现:(1)GPT-4 在医学领域表现出显著优越性,于此同时中文通用大模型也表现得相当出色;(2)医疗大模型在性能方面仍然落后于通用模型,还有很...