GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
一位名叫”Zeyao Du“(位于南京)的开发者,在GitHub上开源了的GPT-2 Chinese。 可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。 项目中默认使用BERT的tokenizer处理中文字符,支持字为单位或是分词模式或是BPE模式,并支持大语料训练。 目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的链接...
几个月前谷歌推出的语言模型BERT引发了业内的广泛关注,其 3 亿参数量刷新 11 项纪录的成绩让人不禁赞叹。昨天,OpenAI 推出了一种更为强大的算法,这一次模型达到了 15 亿参数。 代码地址:https://github.com/openai/gpt-2 这种机器学习算法不仅在很多任务上达到了业内最佳水平,还可以根据一小段话自动「脑补」...
一位名叫”Zeyao Du“(位于南京)的开发者,在GitHub上开源了的GPT-2 Chinese。可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。项目中默认使用BERT的tokenizer处理中文字符,支持字为单位或是分词模式或是BPE模式,并支持大语料训练。目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的链接:大...
选自github.io 作者:Jay Alammar 机器之心编译 参与:郭元晨、Geek AI 在过去的一年中,BERT、Transformer XL、XLNet 等大型自然语言处理模型轮番在各大自然语言处理任务排行榜上刷新最佳纪录,可谓你方唱罢我登场。其中,GPT-2 由于其稳定、优异的性能吸引了业界的关注 今年涌现出了许多机器学习的精彩应用,令人目不...
git clone https://github.com/bigscience-workshop/Megatron-DeepSpeed 5.执行以下命令,安装Megatron-DeepSpeed框架。 cd Megatron-DeepSpeed pip install -r requirements.txt 处理数据 本指南使用1GB 79K-record的JSON格式的OSCAR数据集。 1.执行以下命令,下载数据集。 wget https://huggingface.co/bigscience/misc...
原始训练的实现在这里:github.com/karpathy/llm 你会看到,项目在开始时一次性分配所有所需的内存,这些内存是一大块 1D 内存。然后在训练过程中,不会创建或销毁任何内存,因此内存占用量保持不变,并且只是动态的,将数据批次流过。这里的关键在于手动实现所有单个层的前向和后向传递,然后将它们串联在一起。 例如,...
注:几乎所有代码都是从Hugging Face(https://github.com/huggingface/transformers/blob/master/src/transformers/modeling_gpt2.py)的 GPT-2 实现中复制、启发和引用的,只保留了简单的基本要素。如果你想在并行 GPU 上训练 GPT-2 模型,在微调时保存检查点,在多个 CPU 上运行推理任务等等,我建议你使用 ...
根据GitHub 页面介绍,llm.c 是一个简单、纯粹的 C/CUDA LLM 训练项目。不需要使用 245MB 的 PyTorch 或 107MB 的 cPython 就能用纯 C 语言训练 LLM。 更让人佩服的是,LLM.c 仅用约 1000 行干净的代码即可在 CPU/fp32 ...