地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bit
地址:https://github.com/pengxiao-song/LaWGPT 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容...
○ 地址:https://github.com/LC1332/Luotuo-Chinese-LLM ○ 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 ● Linly: ○ 地址:https://github.com/CVI-SZU/Linly ○ 简介:提供中文对话模型 Linly-ChatFlow 、中文基...
地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。 Anima 地址:...
来源| Github、zhihu 【导读】大规模语言模型(LLM)是许多NLP任务的通用底座,然而目前的预训练模型通常针对单一或少数语言进行预训练,即使是多语言模型(例如GPT-NeoX)也会在预训练数据上偏袒英文语料造成不同语言上的性能不均衡。以Meta训练...
数据集说明:TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小...
中文预训练语料 :https://github.com/CVI-SZU/Linly/blob/main/corpus/README.md 中文指令精调数据集:https://github.com/CVI-SZU/Linly/blob/main/instructions/README.md 模型量化部署:https://github.com/fengyh3/llama_inference 领域微调示例:https://github.com/CVI-SZU/Linly#todo-list ...
英语语料库包括来自GitHub的Markdown和StackExchange的材料,这些材料用于增强模型对与代码相关的概念的理解,并提高其处理库使用和错误修复等任务的能力。与此同时,中文语料库包括旨在提高模型对中文语言的理解能力的高质量文章 2.2.1.1 GitHub数据爬取和过滤 收集了GitHub上截至2023年2月创建的公共仓库,并仅保留了87...
本项目采用java实现,完整项目见https://github.com/jiangnanboy/llm_corpus_quality llm_corpus_quality支持以下特性: 规则清洗 敏感词过滤 广告过滤 去重 质量评估 the overall processing process of the pre-trained corpus of the llm 大模型语料处理流程 ...
https://github.com/FlagAI-Open/Aquila2 https://model.baai.ac.cn/ https://huggingface.co/BAAI 最强中英双语大模型,开源!22项综合排名领先,仅凭1/2的参数量和2/3的训练数据量,就超越了Llama2-70B和其余开源基座模型,Aquila2-34B是怎样做到的?这背后,当然要归功于智源多年积累的高质量语料。经过...