今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型...
不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。 没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹: 在GitHub 上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅...
不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。 没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹: 在GitHub上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅度的迭代,现在实现相同的结果只需要 5 分钟。该研究的作者 Keller Jor...
该记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记录和 Andrej Karpathy 的原始训练准确率约为 30%。 让我们看看他是怎么做的: 项目链接:https://github.com/KellerJordan/modded-nanogpt/tree/master Modded-NanoGPT 该项目名为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 训练器...
AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗? 今年4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm...
想做中文配音来着,正在摸索好用的方法。原始视频来自:【【必看珍藏】2月6日,安德烈·卡帕西最新AI普及课:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy】 https://www.bilibili.com/video/BV16cNEeXEer/?share_source=copy_w科技 计算机技术 学习 教学视频 人工智能 视频教程 ...
今年4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型也需...
Andrej Karpathy 曾成功使用C/CUDA语言,以简洁的代码实现了大型语言模型的训练,且无需依赖245MB的PyTorch或107MB的cPython。以GPT-2为例,仅需在单个文件中编写约1000行代码,即可完成训练。这种实现方式不仅编译迅速,而且与PyTorch的参考实现高度一致。在某种程度上,Karpathy 确实在尝试对大型语言模型(LLM)的...
在今年2月份,OpenAI内部斗争事件之后,Karpathy再次从OpenAI离职,并一直致力于一些开源课程。如今,算是正式投身于自己热爱的教育事业。我们可以期待,Karpathy将为AI领域带来更多优秀的课程资源。关于Karpathy的更多课程项目,可见扩展阅读。《五年后的今天,训练 GPT-2 只需不到 700 刀、24 小时,Karpathy 又整...
AI 领域的元老级科学家 Andrej Karpathy(前OpenAI联合创始人)最近在他的 YouTube 频道上发布了一段长达 3.5 小时的视频,标题为《Deep Dive intoLLMs likeChatGPT(深入探讨 ChatGPT 等大型语言模型)》。这段视频对任何对生成式 AI 感兴趣的人来说都是一个宝藏,唯一的问题是——有点太长了,下文是我的观看笔...