ICCV 2023 Oral | 南科大VIP Lab | 针对VLP模型的集合级引导攻击 本文是南方科技大学郑锋老师课题组(SUSTech, Visual Intelligence & Perception Lab)针对视觉-语言预训练模型的对抗鲁棒性的研究。文章发表在 ICCV 2023,收录为 Oral。 文章链接:https://arxiv.org/abs/2307.14061 开源代码:https://github.com/Zoky...
ICCV 2023 Oral | ScanNet++重磅出世!3D室内场景的高保真数据集! 3D视觉工坊 公众号「3D视觉工坊」博主 标题可能夸大或与内容不符 2 人赞同了该文章 目录 收起 0. 笔者个人体会 1. 效果展示 2. 论文信息 3. 摘要 4. 数据集介绍 5. 实验 6. 总结 0. 笔者个人体会 能感觉到最近有非常多基于NeRF的...
ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习 本篇文章介绍来自大连理工大学的论文Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation,收录于 ICCV 2023 Oral,研究用于图像融合和分割的多交互特征学习和全时多模态基准。 详...
oral:基于掩码策略困难实例挖掘的数字病理图像分类 1重庆大学,2香港科技大学,3沃尔玛全球技术中心 原文标题:multiple instance learning framework with masked hard instance mining for whole slide image classification 原文地址:https://ar...
本文是南方科技大学郑锋老师课题组(SUSTech, Visual Intelligence & Perception Lab)针对视觉-语言预训练模型的对抗鲁棒性的研究。文章名称为『Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training...
今天笔者将为大家带来这个问题新的解决思路,也就是ICCV 2023 Oral提出的Doppelgangers,能够自动判断两个视图是相同的,还是仅仅是相似的。这个方案实际上是将视觉消歧问题建模为图像对上的二分类任务,并开发了基于学习的解决方案和数据集。这里也推荐「3D视觉工坊」新课程《(第二期)ORB-SLAM3理论讲解与代码精析》。
人类的语言是一种对复杂世界的高度简洁的编码,特别是语言中颜色的概念,成功地将原本极大的色彩空间(如256三次方真色彩空间)压缩至5到10种颜色。受此启发,来自上海交大,日本理化学研究所,东京大学 的研究人员,提出全新的基于视觉任务的色彩量化(colour quantisation)技术,利用深度学习重现人类数万年的颜色概念的演化。这...
本文的方法在 5 个不同的 OWTTT 基准上实现了最优的性能表现,并为 TTT 的后续研究探索面向更加鲁棒 TTT 方法的提供了新方向。研究已作为 Oral 论文被 ICCV 2023 接收。 引言 测试段训练(TTT)可以仅在推理阶段访问目标域数据,并对分布偏移的测试数据进行即时推理。TTT 的成功已经在许多人工选择的合成损坏目标域...
DIR通过二维和三维之间的空间映射关系,以节点特征为媒介沟通这两个空间,实现迭代地特征增强和手部姿态修正。DIR在目前最具挑战性的双手数据集上实现了远超SOTA的手部重建精度和像素对齐效果;同时,DIR在不需要虚拟数据辅助训练的情况下,表现出了强大的泛化能力。此工作入选 ICCV2023Oral。
ICCV 2023 Oral | 超越SAM!EntitySeg:更少的数据,更高的分割质量 稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在Adobe旗下的Photoshop等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量...