在中文语料上使用Sentence Piece训练一个中文tokenizer,获得中文tokenizer的词表。然后将中文tokenizer与原始的LLaMA tokenizer合并起来,通过合并二者测词汇表,最终获得一个合并的tokenizer。 合并的方法,可以参考https://github.com/ymcui/Chinese-LLaMA-Alpaca 实现后的效果 通过实现中文LLaMA分词器,中文分词生成的token数明...
○ 地址:https://github.com/LC1332/Luotuo-Chinese-LLM ○ 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 ● Linly: ○ 地址:https://github.com/CVI-SZU/Linly ○ 简介:提供中文对话模型 Linly-ChatFlow 、中文基...
地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。 BianQue: 地址:https://github.com/scutcyr/...
地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications 简介:开源了中文金融领域开源语料库BBT-FinCorpus,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。 XuanYuan(轩辕):首个千亿级中文金融对话模型 地址:https://huggingface.co/xyz-nlp/XuanYuan2.0 简介:轩辕是...
来源| Github、zhihu 【导读】大规模语言模型(LLM)是许多NLP任务的通用底座,然而目前的预训练模型通常针对单一或少数语言进行预训练,即使是多语言模型(例如GPT-NeoX)也会在预训练数据上偏袒英文语料造成不同语言上的性能不均衡。以Meta训练...
GitHub链接: https://github.com/tloen/alpaca-lora 尽管Alpaca和alpaca-lora取得了较大的提升,但其种子任务都是英语,缺乏对中文的支持。一方面除了以上提到Belle收集到了大量的中文语料,另一方面基于alpaca-lora等前人工作,来自华中师范大学等机...
地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。 Anima 地址...
中文预训练语料 :https://github.com/CVI-SZU/Linly/blob/main/corpus/README.md 中文指令精调数据集:https://github.com/CVI-SZU/Linly/blob/main/instructions/README.md 模型量化部署:https://github.com/fengyh3/llama_inference 领域微调示例:https://github.com/CVI-SZU/Linly#todo-list ...
💡 下图是中文Alpaca-7B模型在本地CPU量化部署后的实际体验效果(GIF未加速,M1 Max下实测)。 新闻 [2023/04/28]Release v3.0: 发布中文LLaMA/Alpaca Plus版本(7B),使用了更大的语料进行训练,相比基础版各项能力显著提升。另外还进一步完善了评测流程、添加了预训练脚本等。
平行语料。数据集下载:huggingface.co/datasetshuggingface.co/datasets数据集来源:huggingface.co/datasetsgithub.com/esbatmop/MNB数据集条数:10M |3.39GB数据集格式: 【009】WuDaoCorporaText 数据集名称:p208p2002/wudao数据集标签:【预训练数据】【中文】【web领域】数据集介绍:WuDaoCorpora是北京智源人工智能研究院...