llm+中文+语料+github

2025-06-13 21:16:39

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

GitHub - jumping/Awesome-Chinese-LLM: 整理开源的中文大语言...

地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bit
Chinese-LLM开源中文大语言模型合集 - 哔哩哔哩

地址:https://github.com/pengxiao-song/LaWGPT 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容...
中文开源LLM大全:Awesome-Chinese-LLM - 知乎

○ 地址:https://github.com/LC1332/Luotuo-Chinese-LLM ○ 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 ● Linly: ○ 地址:https://github.com/CVI-SZU/Linly ○ 简介:提供中文对话模型 Linly-ChatFlow 、中文基...
GitHub - yml-blog/Awesome-Chinese-LLM: 整理开源的中文大语言...

地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。 Anima 地址:...
...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

来源| Github、zhihu 【导读】大规模语言模型(LLM)是许多NLP任务的通用底座,然而目前的预训练模型通常针对单一或少数语言进行预训练,即使是多语言模型(例如GPT-NeoX)也会在预训练数据上偏袒英文语料造成不同语言上的性能不均衡。以Meta训练...
最全高质量大模型(LLM)中文预训练数据集,持续更新中 - 知乎

数据集说明:TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小...
...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

中文预训练语料 :https://github.com/CVI-SZU/Linly/blob/main/corpus/README.md 中文指令精调数据集:https://github.com/CVI-SZU/Linly/blob/main/instructions/README.md 模型量化部署:https://github.com/fengyh3/llama_inference 领域微调示例:https://github.com/CVI-SZU/Linly#todo-list ...
「LLM-代码」DeepSeek-Coder:当大语言模型遇到编程

英语语料库包括来自GitHub的Markdown和StackExchange的材料，这些材料用于增强模型对与代码相关的概念的理解，并提高其处理库使用和错误修复等任务的能力。与此同时，中文语料库包括旨在提高模型对中文语言的理解能力的高质量文章 2.2.1.1 GitHub数据爬取和过滤收集了GitHub上截至2023年2月创建的公共仓库，并仅保留了87...
cleaning of llm corpus 大模型语料清洗 - 石头木 - 博客园

本项目采用java实现,完整项目见https://github.com/jiangnanboy/llm_corpus_quality llm_corpus_quality支持以下特性: 规则清洗敏感词过滤广告过滤去重质量评估 the overall processing process of the pre-trained corpus of the llm 大模型语料处理流程 ...
开源一哥再登场,双语LLM全家桶级开源!340亿参数超越Llama2-70B

https://github.com/FlagAI-Open/Aquila2 https://model.baai.ac.cn/ https://huggingface.co/BAAI 最强中英双语大模型，开源！22项综合排名领先，仅凭1/2的参数量和2/3的训练数据量，就超越了Llama2-70B和其余开源基座模型，Aquila2-34B是怎样做到的？这背后，当然要归功于智源多年积累的高质量语料。经过...

快搜汉语词典

llm+中文+语料+github

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

GitHub - jumping/Awesome-Chinese-LLM: 整理开源的中文大语言...

Chinese-LLM开源中文大语言模型合集 - 哔哩哔哩

中文开源LLM大全:Awesome-Chinese-LLM - 知乎

GitHub - yml-blog/Awesome-Chinese-LLM: 整理开源的中文大语言...

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

最全高质量大模型(LLM)中文预训练数据集,持续更新中 - 知乎

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

「LLM-代码」DeepSeek-Coder:当大语言模型遇到编程

cleaning of llm corpus 大模型语料清洗 - 石头木 - 博客园

开源一哥再登场,双语LLM全家桶级开源!340亿参数超越Llama2-70B

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

快搜汉语词典

llm+中文+语料+github

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

GitHub - jumping/Awesome-Chinese-LLM: 整理开源的中文大语言...

Chinese-LLM开源中文大语言模型合集 - 哔哩哔哩

中文开源LLM大全:Awesome-Chinese-LLM - 知乎

GitHub - yml-blog/Awesome-Chinese-LLM: 整理开源的中文大语言...

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

最全 高质量 大模型(LLM)中文预训练数据集,持续更新中 - 知乎

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

「LLM-代码」DeepSeek-Coder:当大语言模型遇到编程

cleaning of llm corpus 大模型语料清洗 - 石头木 - 博客园

开源一哥再登场,双语LLM全家桶级开源!340亿参数超越Llama2-70B

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

最全高质量大模型(LLM)中文预训练数据集,持续更新中 - 知乎