该项目通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果,且基于相同的数据,还训练了医疗版本的ChatGLM模型: ChatGLM-6B-Med此外,我们还尝试利用GPT3.5 API将医学文献中的【结论】作为外部信息融入多轮对话中,在此基础上对LLaMA进行了指令...
根据baichuan2论文内容,评估数据集主要包括以下几个方面: 1. 总体性能评估:使用MMLU、C-Eval、CMMLU、AGIEval、Gaokao、BBH等综合基准,评估Baichuan 2模型在自然语言理解和推理能力方面的表现。 2. 垂直领域评估:使用JEC-QA、MedQA等法律医学领域的专项基准,评估Baichuan 2在专业领域知识掌握和问题解决能力。 3. 数...
(2)字幕和过滤(Captioning and Filtering,CapFilt):一种新的数据集增强方法,用于从噪声图像-文本对中学习。作者将预先训练的MED分为两个模块:一个字幕器,用于生成给定web图像的合成字幕,以及一个过滤器,用于从原始web文本和合成文本中删除嘈杂的字幕。