[1] Tele-FLM-52B基座项目链接:https://huggingface.co/CofeAI/Tele-FLM [2] AlignBench评测:https://github.com/THUDM/AlignBench [3] FLM-101B项目链接:https://huggingface.co/CofeAI/FLM-101B [4] MSG生长算子:https://github.com/cofe-ai/MSG ...
https://openreview.net/pdf?id=rL7xsg1aRnhttps://github.com/cofe-ai/MSG 损失预测:https://arxiv.org/pdf/234.6875https://github.com/cofe-ai/Mu-scaling FLM-11B:https://arxiv.org/pdf/239.3852https://huggingface.co/CofeAI/FLM-11B 基础模型训练的经验和教训 Lesson1:当训练数据的“质”和...
代码:Tele-FLM整合了多个类似GitHub的代码数据集,并进行后处理以过滤掉低质量和重复的内容。同时,Tele-FLM仔细组装并策划了一个包含中文技术文章的、格式良好的Markdown数据集。 书籍:Tele-FLM从Redpajama和Gutenberg2等多个来源收集英文和中文书籍。Tele-FLM开发了一系列清理步骤,以去除书籍中的冗余格式、乱码文本、...
[1] Tele-FLM-52B基座项目链接:https://huggingface.co/CofeAI/Tele-FLM [2] AlignBench评测:https://github.com/THUDM/AlignBench [3] FLM-101B项目链接:https://huggingface.co/CofeAI/FLM-101B [4] MSG生长算子:https://
https://github.com/cofe-ai/Mu-scaling FLM-101B: https://arxiv.org/pdf/2309.03852 https://huggingface.co/CofeAI/FLM-101B 基础模型训练的经验和教训 Lesson 1:当训练数据的“质”和“量”不可兼得时,优先考虑“质” 预训练数据最重要的两点是“质”和“量”。中英双语大模型,目前典型且安全的做法为...
https://github.com/cofe-ai/Mu-scaling FLM-101B: https://arxiv.org/pdf/2309.03852 https://huggingface.co/CofeAI/FLM-101B 4.基础模型训练的经验和教训 Lesson 1:当训练数据的“质”和“量”不可兼得时,优先考虑“质” 预训练数据最重要的两点是“质”和“量”。中英双语大模型,目前典型且安全的做法...
[1] Tele-FLM-52B基座项目链接:https://huggingface.co/CofeAI/Tele-FLM [2] AlignBench评测:https://github.com/THUDM/AlignBench [3] FLM-101B项目链接:https://huggingface.co/CofeAI/FLM-101B [4] MSG生长算子:https://github.com/cofe-ai/MSG...