v1版本:MedicalGPT-zh MedicalGPT-zh:中文医疗对话语言模型 - 智源社区 LoRA-SFT监督微调-训练不稳定和量化效果不好 项目简介及快速开始 数据集构建:情景对话与知识问答 模型训练: 模型训练问题: 模型输出样例: 参考文献: 附:论文简要解读 0 摘要Abstract 1 Introduction 2 Large Language Models in Healthcare 3...
SFT训练数据由多个人工选择和验证的高质量数据集组成,包括BELLE、Alpaca和Alpaca- gpt4等数据集的约200万样本,包括LeetCode和各种代码任务在内的内部采集代码数据的30万样本,推理、议论文、数学应用问题和数值计算等内部采集推理/逻辑相关数据的50万样本。200万个汉英平行语料库样本,包括翻译、cot式翻译、文言文翻译;50...
2万条中英文偏好数据集:shibing624/DPO-En-Zh-20k-Preference 【本项目支持格式】 原版的oasst1数据集:OpenAssistant/oasst1 2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward 11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf 9万条英文reward数据集(来自Anthropic's Helpful...
5 万条英文 ChatGPT 指令 Alpaca 数据集:50k English Stanford Alpaca dataset 2 万条中文 ChatGPT 指令 Alpaca 数据集:shibing624/alpaca-zh 69 万条中文指令 Guanaco 数据集 (Belle50 万条 + Guanaco19 万条):Chinese-Vicuna/guanaco_belle_merge_v1.0 240 万条中文医疗数据集 (包括预训练数据和指令微调数...
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练LLM:含Ziya-LLaMA。 *** 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。 分四阶段训练GPT模型,来自Andrej Karpathy的演讲PDFState of GPT,视频Video 版本...
MedicalGPT训练医疗大模型,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 RLHF training pipeline来自Andrej Karpathy的演讲PDFState of GPT,视频Video DPO方法来自论文Direct Preference Optimization:Your Language Model is Secretly a Reward Model ...
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。 *** 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。 分四阶段训练GPT模型,来自Andrej Karpathy的演讲PDFState of GPT,视频Video 版本...
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。 *** 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。 分四阶段训练GPT模型,来自Andrej Karpathy的演讲PDFState of GPT,视频Video 版本...
2万条中英文偏好数据集:shibing624/DPO-En-Zh-20k-Preference 【本项目支持格式】 原版的oasst1数据集:OpenAssistant/oasst1 2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward 11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf 9万条英文reward数据集(来自Anthropic's Helpful...
shibing624/llama-3-8b-instruct-262k-chinese Llama-3-8B-Instruct-262k 在2万条中英文偏好数据集shibing624/DPO-En-Zh-20k-Preference上使用ORPO方法微调得到的超长文本多轮对话模型,适用于RAG、多轮对话 演示shibing624/vicuna-baichuan-13b-chat模型效果: 具体case见Inference Examples ▶️ Demo 我们提供了...