除了盛赞 DeepSeek-R1 的技术创新外,Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价,但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型,阻碍了 RLHF 成为专业技术的步伐。同时他也提出了一个名为“瑞士奶酪”的 LLM 能力框架,表示大模型会在在某些特定情况下出现随机的失败,告诫人们不要完全依赖大...
1. 引言:解码大型语言模型的奥秘(Introduction) Andrej Karpathy的3.5小时视频《深入探讨ChatGPT等大型语言模型》堪称「LLM百科全书」。这位OpenAI前联合创始人用通俗语言,从数据收集到强化学习,完整揭示了LLM如何从互联网文本中「炼成」智能。视频的核心命题是:LLM本质是一个统计模式模拟器,它通过海量数据学习人类表达规...
Andrej Karpathy 在YouTube上发布了一段新视频,时长3小时31分钟: 《深入探讨大型语言模型(LLM)如ChatGPT》 这是一部面向普通观众的深入讲解视频,探讨了驱动ChatGPT及相关产品的大型语言模型(LLM)技术。...
Andrej Karpathy入局AI教育创业,致力让任何人学习任何知识 当地时间 7 月 16 日,OpenAI 创始成员之一、前特斯拉人工智能主管安德烈·卡帕西(Andrej Karpathy)宣布成立一个“新型学校”,名为 Eureka Labs(官网链接在文末)。这个总部位于美国旧金山的新公司,将致力于创建一种“人工智能原生”的教育体验,通过人工...
source:https://www.youtube.com/watch?v=7xTGNNLPyMI&ab_channel=AndrejKarpathy 本视频详细介绍了大语言模型(LLM)的训练流程、内部机制及推理过程,并对模型在问题求解、工具使用、RLHF(基于人类反馈的强化学习)等方面的表现进行了探讨。 1. 文本与 Token 化 ...
现在他的个人YouTube 频道已有50.7万订阅。发布的一系列关于“生成式预训练模型GPT-2的重现、构建 GPT 标记器、LLM入门、从零开始构建神经网络”等课程大受AI社区欢迎。其中一则两小时介绍“如何手搓GPT”的视频已累积了450万播放量,累积观看超过1亿次。除此之外,Karpathy 还在 GitHub 上发布了多个深度学习库...
Jed的有氧日记创建的收藏夹LLM内容:【1080P】安德烈·卡帕西:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy,如果您对当前收藏夹内容感兴趣点击“收藏”可转入个人收藏夹方便浏览
这就像是一家公司,他打了个比方,LLM 们会有不同的分工,有程序员和产品经理等。Karpathy 的教育事业 Andrej Karpathy 离开 OpenAI 后一头扎进了「AI+教育」领域。他说:「我一直是一名教育工作者,我热爱学习和教学。」他谈到了自己的愿景。他认为 AI 领域现在很多工作的目的是取代人,但他更感兴趣的是以...
本文是Andrej Karpathy在cude mode hackathon上做的分享,主要介绍开发llm.c这一纯C/CUDA大模型训练项目过程中遇到的问题及解决方案,同时也谈到了如何利用CUDA和GPU优化,将模型从CPU移植到GPU上运行及加速训练。 视频地址:https://www.bilibili.com/video/BV1Ght2ejEkQ/ ...
【城主说】在这个星球上能把大模型原理讲得最深入浅出的大神,私以为OpenAI创始人之一的Andrej Karpathy是毫无疑问的最佳候选人之一。看过他之前讲座的同学一定能赞同这个说法。 Andrej昨天放出了一个3.5小时的长篇视频讲座,如大神原话,在这个讲座里,他面向大众完整讨论了ChatGPT 及相关产品的技术原理 ,深入探讨驱动...