llm+中文+语料+github

2024-10-17 14:22:26

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

LLM中文词表扩充 - 知乎

在中文语料上使用Sentence Piece训练一个中文tokenizer,获得中文tokenizer的词表。然后将中文tokenizer与原始的LLaMA tokenizer合并起来,通过合并二者测词汇表,最终获得一个合并的tokenizer。合并的方法,可以参考https://github.com/ymcui/Chinese-LLaMA-Alpaca 实现后的效果通过实现中文LLaMA分词器,中文分词生成的token数明...
中文开源LLM大全:Awesome-Chinese-LLM - 知乎

○ 地址:https://github.com/LC1332/Luotuo-Chinese-LLM ○ 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 ● Linly: ○ 地址:https://github.com/CVI-SZU/Linly ○ 简介:提供中文对话模型 Linly-ChatFlow 、中文基...
Chinese-LLM开源中文大语言模型合集 - 哔哩哔哩

地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。 BianQue: 地址:https://github.com/scutcyr/...
Chinese-LLM开源中文大语言模型合集 - AI魔法学院

地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications 简介:开源了中文金融领域开源语料库BBT-FinCorpus,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。 XuanYuan(轩辕):首个千亿级中文金融对话模型地址:https://huggingface.co/xyz-nlp/XuanYuan2.0 简介:轩辕是...
...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

来源| Github、zhihu 【导读】大规模语言模型(LLM)是许多NLP任务的通用底座,然而目前的预训练模型通常针对单一或少数语言进行预训练,即使是多语言模型(例如GPT-NeoX)也会在预训练数据上偏袒英文语料造成不同语言上的性能不均衡。以Meta训练...
收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)

GitHub链接: https://github.com/tloen/alpaca-lora 尽管Alpaca和alpaca-lora取得了较大的提升,但其种子任务都是英语,缺乏对中文的支持。一方面除了以上提到Belle收集到了大量的中文语料,另一方面基于alpaca-lora等前人工作,来自华中师范大学等机...
GitHub - cnPro/Awesome-Chinese-LLM: 整理开源的中文大语言模型...

地址:https://github.com/baichuan-inc/Baichuan2 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。 Anima 地址...
...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

中文预训练语料 :https://github.com/CVI-SZU/Linly/blob/main/corpus/README.md 中文指令精调数据集:https://github.com/CVI-SZU/Linly/blob/main/instructions/README.md 模型量化部署:https://github.com/fengyh3/llama_inference 领域微调示例:https://github.com/CVI-SZU/Linly#todo-list ...
GitHub - zzu-hzc/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言...

💡 下图是中文Alpaca-7B模型在本地CPU量化部署后的实际体验效果(GIF未加速,M1 Max下实测)。新闻 [2023/04/28]Release v3.0: 发布中文LLaMA/Alpaca Plus版本(7B),使用了更大的语料进行训练,相比基础版各项能力显著提升。另外还进一步完善了评测流程、添加了预训练脚本等。
大模型训练的有哪些数据集?LLM大模型训练有哪些通用语料? - 知乎

平行语料。数据集下载:huggingface.co/datasetshuggingface.co/datasets数据集来源:huggingface.co/datasetsgithub.com/esbatmop/MNB数据集条数:10M |3.39GB数据集格式: 【009】WuDaoCorporaText 数据集名称:p208p2002/wudao数据集标签:【预训练数据】【中文】【web领域】数据集介绍:WuDaoCorpora是北京智源人工智能研究院...

快搜汉语词典

llm+中文+语料+github

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

LLM中文词表扩充 - 知乎

中文开源LLM大全:Awesome-Chinese-LLM - 知乎

Chinese-LLM开源中文大语言模型合集 - 哔哩哔哩

Chinese-LLM开源中文大语言模型合集 - AI魔法学院

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)

GitHub - cnPro/Awesome-Chinese-LLM: 整理开源的中文大语言模型...

...计算机视觉研究所项目登上GitHbub热榜,低成本实现中文预训练LLM

GitHub - zzu-hzc/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言...

大模型训练的有哪些数据集?LLM大模型训练有哪些通用语料? - 知乎

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索