SFT完成后,模型已经具备了初步可用的对话能力,基于网上见到的信息回答问题。Karpathy 也指出,在这一步后,模型即便可用,仍然会碰到许多缺陷:幻觉(编造事实)、不够礼貌、无法拒绝敏感请求等。 四、大模型的「心理特征」——幻觉、推理与工具使用 4.1 幻觉(Hallucination):为何大模型会「瞎编」? 在基础模型或初步微调...
https://www.bilibili.com/video/BV1BJ41157PJAI领域的传奇人物、OpenAI共同创办人、特斯拉人工智能总监Andrej Karpathy,将免费教你如何在生活中高效运用AI!本期内容聚焦于大型语言模型(LLM)的入门实例解析、互动技巧以及工具使用,带你快速掌握LLM的应用。白嫖「AI GPT
诚然,这一步骤可能让人感到有些头疼——连Andrej Karpathy本人似乎也不是很中意这一过程,并希望有朝一日能有更高效的方法来取代它。但就目前而言,Tokenization是我们的不二选择,因为它对LLM的性能有着不容忽视的影响。虽然这个过程可能让人有些讨厌,但绝对不是你想跳过的那块儿。 Tokenization 对于 LLM的影响 Tok...
Andrej Karpathy入局AI教育创业,致力让任何人学习任何知识 当地时间 7 月 16 日,OpenAI 创始成员之一、前特斯拉人工智能主管安德烈·卡帕西(Andrej Karpathy)宣布成立一个“新型学校”,名为 Eureka Labs(官网链接在文末)。这个总部位于美国旧金山的新公司,将致力于创建一种“人工智能原生”的教育体验,通过人工...
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型...
Andrej《深入了解ChatGPT之类的大语言模型|Deep Dive into LLMs like ChatGPT》中英字幕(deepseek-R1 420 0 03:31:24 App 【4K超清】Andrej Karpathy 3小时深入浅出ChatGpt 到 DeepSeek-R1 492 4 02:11:14 App 【双语】How I use LLMs(Andrej Karpathy大神教你使用LLMs工具) 5460 6 03:31:24 ...
除了盛赞 DeepSeek-R1 的技术创新外,Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价,但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型,阻碍了 RLHF 成为专业技术的步伐。同时他也提出了一个名为“瑞士奶酪”的 LLM 能力框架,表示大模型会在在某些特定情况下出现随机的失败,告诫人们不要完全依赖大...
Andrej Karpathy:OpenAI基本上是在试图建立LLmOS。我认为,正如我们今天早些时候听到的那样,它正试图开发这个平台,在这个平台之上,你可以定位不同垂直领域的不同公司。现在,我认为操作系统的比喻也非常有趣。 因为当你看到像 Windows的操作系统,它会自带一些默认应用程序,比如Edge 浏览器。所以,OpenAI 或其他大模型公司...
Karpathy 表示:对于 LLM 来说,「Speculative execution」 是一种极好的推理 — 时间优化方法。它取决于以下方面:在单个输入 token 上分发 LLM 所花费的时间与在批处理中分发 K 个输入 token 所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从 VRAM ...
这就像是一家公司,他打了个比方,LLM 们会有不同的分工,有程序员和产品经理等。Karpathy 的教育事业 Andrej Karpathy 离开 OpenAI 后一头扎进了「AI+教育」领域。他说:「我一直是一名教育工作者,我热爱学习和教学。」他谈到了自己的愿景。他认为 AI 领域现在很多工作的目的是取代人,但他更感兴趣的是以...