多模态大模型、医学影像、人脸和OCR等方向 近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。 作为全球计算机视觉与模式识别领域的顶级会议,CVPR每年都吸引着全球众多研究者和企业的关注。入选CVPR的论文需要经过严格的评审流程,确保其创新...
1 序列建模:大视觉模型的先驱 论文名称:Sequential Modeling Enables Scalable Learning for Large Vision Models (CVPR 2024) 论文地址:http://arxiv.org/pdf/2312.00785.pdf 1.1 大视觉模型的特点是什么? GPT 和 LLaMA 等大型语言模...
CVPR 2024 对 AI 和机器人技术的关注,凸显了先进计算模型、感知增强技术以及对人类场景深度理解等方面与机器人系统的逐步整合。机器人 首先,机器人(Robotics) 主题一共 29 篇,在 CVPR 2024 主题排名第 25 位,涉及机器人视觉、导航、操纵等研究,视觉感知是机器人实现智能化的关键。自动驾驶 其次,自动驾驶是...
【新智元导读】FoundationPose模型使用RGBD图像对新颖物体进行姿态估计和跟踪,支持基于模型和无模型设置,在多个公共数据集上大幅优于针对每个任务专门化的现有方法. FoundationPose是一个「用于6D物体姿态估计和跟踪」的统一大模型,支持基于模型和无模型设置,无需微调即可应用于新颖的物体上,只要给出其CAD模型,或者拍摄少量...
提出了一种通用的万物超分画质大模型CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力。 提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度。 提出了一种“All-in-Att...
作为首个研究公平性的VL数据集,FairVLMed对研究模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。在这里分享一篇哈佛大学和纽约大学研究团队的CVPR 2024论文: 「FairCLIP: Harnessing Fairness in Vision-and-Language Learning」。在本次工作中, 我们提出了开创性的关于多模态视觉语言大模型的公平性...
研究方向是三维视觉、多模态大模型和具身智能。在 TPAMI/IJCV 以及 CVPR/ICCV/ECCV 等重要国际期刊和会议发表论文 50 余篇,含多篇会议口头报告或亮点论文。谷歌引用超 4900 次。担任 ACM Computer Surveys 副编,CVPR 2024/ECCV 2024/ACM MM 2024 领域主席等。主持或参与多项国家自然科学基金、科技部重点研发计划...
为缓解多模态大模型的幻觉问题,我们提出了全新的多模态大模型对齐框架RLHF-V,从数据和算法层面入手显著减少“幻觉”的出现。 目前,这一工作已被 CVPR 2024 接收。应用该方法训练的开源模型 OmniLMM-12B 在多个幻觉指标上取得了接近 GPT-4V 的水平。
作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。为了给国内 CV 社区从业者搭建一个自由轻松的学术交流平台,机器之心计划于 2024 年 6 月 1 日组织「CVPR 2024 线上论文分享会」,广邀 AI 社区成员参与...
同时,研究者们还意外地发现 OPERA 能够帮助 LLaVA-1.5 等多模态模型成功在 MME、MMBench 等多模态 benchmark 上涨点。例如,在 LLaVA-1.5 的 7B 模型上的结果如下: 此外,研究者们还给出了 OPERA 的一些具体表现的实例: 总的来说,本文从一个独特的视角...