现在有了 FlexAttention 和较大的 seqlen,文档的拆分更少了,因此语言建模在训练和验证时都变得更容易。该记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记录和 Andrej Karpathy 的原始训练准确率约为 30%。让我们看看他是怎么做的:项目链接:https://github.com/KellerJordan/modded-nanogpt/tre...
在此次创业前,Karpathy是OpenAI的创始成员,曾两度供职于OpenAI,曾任特斯拉AI高级总监。从2015年至2017年,他是OpenAI的研究员及创始成员,随后跳槽到特斯拉,领导特斯拉自动驾驶的计算机视觉团队至2023年。而在过去的一年里,他再次回到OpenAI,建立了一个小团队,在ChatGPT上改进了GPT-4。Karpathy在帖文中解释了自...
AI 领域的元老级科学家 Andrej Karpathy(前OpenAI联合创始人)最近在他的 YouTube 频道上发布了一段长达 3.5 小时的视频,标题为《Deep Dive intoLLMs likeChatGPT(深入探讨 ChatGPT 等大型语言模型)》。这段视频对任何对生成式 AI 感兴趣的人来说都是一个宝藏,唯一的问题是——有点太长了,下文是我的观看笔...
4. Inference (推理) 和 Context Length (上下文长度) Inference 过程: Karpathy 解释了 LLM 在实际应用中的 推理 (Inference) 过程。 当用户输入一个 prompt 时,模型会 迭代地预测 一个词,然后将预测的词添加到输入序列中,再根据新的序列预测下一个词,如此循环往复,直到生成完整的回复。 这个过程也是 “下...
今天凌晨OpenAI发布GPT-4.5。作为OpenAI的联合创始人Andrej Karpathy发起了一个有趣的匿名测试,对比GPT-4和GPT-4.5的效果。结果非常搞笑,GPT-4.5只赢了1次,输了4次,胜率20%: 详细内容翻译如下: GPT 4.5 + 互动对比 :) 今天,OpenAI发布了GPT4.5。自从GPT4发布以来,我已经期待了大约两年,因为这次发布提供了一个...
至于更深层次的技术方面,Karpathy 谈到了对Scaling Law的理解。 虽然OpenAI以大参数模型而闻名,曾引领了一段时间的大参数模型风潮,但如今主流模型已经转向小参数设计。在Karpathy的Youtube账号,最近一条是三个月前重现GPT-2 124M参数的教学视频,时长4个多小时,这或许也间接反映出Karpathy对Scaling Law的不同看法...
大神Andrej Karpathy最新讲座:深入探讨ChatGPT类大语言模型, 视频播放量 10347、弹幕量 15、点赞数 531、投硬币枚数 363、收藏人数 1440、转发人数 514, 视频作者 Web3天空之城, 作者简介 美好的,有趣的,值得铭记的:科技AI | 心理·人文 |国际思辨 ,相关视频:ChatGPT
正如计算机科学家、前OpenAI 联合创始人安德烈·卡尔帕蒂(Andrej Karpathy)喜欢说的那样:大型语言模型学会了用互联网上的文档做梦。你可以把大型语言模型中的数十亿个数字想象成一个巨大的电子表格,它记录了某些单词与其他单词一起出现的统计学上的可能性。电子表格中的值是在训练模型时设置的,这个过程会一次又...
OpenAI的创始人之一,大神Andrej Karpathy刚在微软Build 2023开发者大会上做了专题演讲:State of GPT(GPT的现状)。 在这个朴实无华的题目之下,Andrej带来的是一场超级精彩的分享。 他详细介绍了如何从GPT基础模型一直训练出ChatGPT这样的助手模型(assistant model)。作者不曾在其他公开视频里看过类似的内容,这或许是...
还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗? 今年4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107...