精通深度学习,具备7B 及以上LLM/VLM/VLA等大模型训练和推理相关经验者优先 4.在国际顶会或期刊发表相关论文(如NeurlPS,ICML,CVPR, T-RO等) 5.熟悉 Prompt工程、Post-Training等技术并具备相关经验优先 6.熟练使用 C++、python 等编程语言,有扎实的代码编程能力,有ACM/NOI/IO1/领域内知名比赛等赛事获奖经历...
学习GPT,LLM,VLM等技术和模型,庖丁解牛,探索本质. Contribute to joytianya/LearnGPT development by creating an account on GitHub.
如果你还没有关注它,几个研究实验室已经在2024年9月发布了令人印象深刻的开放式多峰值LLM:Qwen-VL、Pixtral、LLama 3.2和Molmo,大大缩小了与封闭源模型的差距https://t.co/3Lxq4xY1nZ 【9月30日大模型日报】资讯 北大陈宝权教授:从图形计算到世界模型;推特 Karpathy强推Deep Dive:按需播客,基于你提供的任何素...
GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像? 最新研究表明,在一套人类非常容易完成的 7 项视觉任务(比如两个圆是否重叠、两条线是否相交等)中,Claude 3.5 Sonnet 等四种最先进的视觉语言模型(VLM)的平均准确率只有 56.2%。它们似乎并不是在真正地“看”,而是在做...
当前 AI 领域虽有进展,但存在子领域分化问题,需回归整体论基础。大语言模型(LLM)和视觉语言模型(VLM)的发展使创建新型 AI 代理成为可能,AI 正从创建被动任务模型向动态代理模型转变。 ● 主要内容 ○ Agent AI 基于大型基础模型的相关问题:涵盖幻觉问题、偏见与包容性、数据隐私与使用、可解释性与解释能力、推理...
交叉自KV缓存剪枝,实现高效视觉语言推理 | KV 缓存剪枝已成为一种很有前途的技术,可用于减少长上下文自回归生成中的内存和计算成本。现有的视觉语言模型 (VLM) 方法通常依赖于大语言模型 (LLM) 的自注意力分数来识别和剪枝不相关的token。然而,这些方法忽略了模态之间固有的分布差异,通常导致token重要性估计不准确和...
多模态曼巴:二次到线性蒸馏状态空间模型 | 最近的多模态大语言模型 (MLLM) 取得了显著的性能,但由于其二次计算复杂度、不断增长的键值缓存要求以及对独立视觉编码器的依赖,它们面临着部署挑战。我们提出了 Mamba,这是一个使用中等学术计算资源从现有 MLLM 中逐步蒸馏以开发线性复杂度原生多模态状态空间模型的框架。