Publication: CVPR 2024 HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Modelsarxiv.org/abs/2310.14566 动机:当前 LVLM 存在着大量幻觉问题。如何区分造成幻觉的是因为语言幻觉还是视觉幻觉,需要设计合适的数据集以及对照实验来研究。
未来的工作将进一步扩大数据规模,例如,将iNaturalist上的超过1亿张研究级图像纳入其中,并收集更丰富的物种外观文本描述,以便BIOCLIP能够提取细粒度的特征级表示。 对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~ 移步公众号「3D视觉工坊」第一时间获取工业3D视觉、自动驾驶、SLAM、三维重建、最新最前沿论文...
1. 论文信息 标题:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods 作者:Mingqi Jiang, Saeed Khorram, Li Fuxin 机构:俄勒冈州立大学 原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_...
CVPR2024最佳论文候选出炉啦!24篇提名论文一次看完 CVPR2024最佳论文候选出炉啦!24篇提名论文一次看完,附原文和源码#人工智能 #深度学习 #注意力机制 #transformer #计算机视觉 - 人工智能论文搬砖学姐于20240606发布在抖音,已经收获了21.4万个喜欢,来抖音,记录美好生
这篇论文提出了一种名为VoCo的简单而有效的体积对比学习框架,用于3D医学图像分析。该框架旨在利用3D医学图像中相对一致的上下文位置信息进行自监督预训练,以提高下游任务的性能。具体来说,VoCo框架首先从不同区域生成一组基础裁剪,并在它们之间强化特征差异,然后随机裁剪子体积并通过对比它们与不同基础裁剪的相似性来预测...
近日,计算机视觉最高水平顶会CVPR 2024公布了录用名单,上海交通大学电子信息与电气工程学院计算机系计算机应用研究所共有24篇论文被录用。计算机应用研究所团队由马利庄教授领导,成员包括卢策吾教授、盛斌教授、严骏驰教授、谢源教授、张志忠副教授、谭鑫副研究员、易冉助理教授和李永露助理教授等。团队录用的论文在3D场景...
CVPR’24官方已开始征集CV4MR(CV for MIXED REALITY)研讨会的作品了,目标领域包括实时视图合成/深度估计/3D捕获与重建/SLAM/场景理解/等等。 截止日期3月15日,合适的朋友赶紧冲吧。 好了最后,我们也期待一波后续的颁奖,看看今年的最佳论文花落谁家~
当地时间6月17日,为期5天的IEEE国际计算机视觉与模式识别会议(CVPR2024)在美国西雅图举办。官方数据显示,本届会议共收到11532篇有效论文投稿,接收了其中2719篇,录用率为23.6%,比例低于往年。 CVPR主办方是IEEE,为全球计算机视觉三大顶会之一,迄今举办了40次会议。本届会议蚂蚁集团有24篇论文被收录,其中一篇被组委会重...
CVPR’24官方已开始征集CV4MR(CV for MIXED REALITY)研讨会的作品了,目标领域包括实时视图合成/深度估计/3D捕获与重建/SLAM/场景理解/等等。 截止日期3月15日,合适的朋友赶紧冲吧。 好了最后,我们也期待一波后续的颁奖,看看今年的最佳论文花落谁家~
本文的核心思想是从大量真实视频中学习一个频域的运动先验模型,然后用它从单张静止图片生成动态视频。具体步骤如下:1. 将视频中每个像素的运动轨迹进行傅立叶变换,得到一种频谱体积(Spectral Volume)的紧致表征。频谱体积可以用很少的参数刻画周期性运动的基本特征。2. 训练一个以静止图片为条件的扩散...