aleafy.github.io/alpha-clip Topics machine-learning deep-learning vision-and-language vision-language vision-transformer vision-language-model Resources Readme License Apache-2.0 license Activity Stars 782 stars Watchers 13 watching Forks 50 forks Report repository Contributors 2 SunzeY Zeyi...
项目主页:https://aleafy.github.io/alpha-clip 代码链接:https://github.com/SunzeY/AlphaCLIP CVPR 2024 论文和开源项目合集请戳—>https://github.com/amusi/CVPR2024-Papers-with-Code 1. 图像分类 如图所示,对于ImagNet的一张图片,我们可以通过alpha-map控制CLIP去关注鱼或渔夫。 以ImageNet的Zero-Shot C...
单位:上海交通大学, 复旦大学, 香港中文大学, 上海人工智能实验室, 澳门大学, MThreads, Inc. github链接:https://aleafy.github.io/alpha-clip 在人工智能和计算机视觉的领域中,图像理解一直是研究的热点。随着深度学习技术的发展,我们已经能够训练模型来识别和理解图像中的广泛内容。但是,当我们需要模型专注于图像...
项目主页:https://aleafy.github.io/alpha-clip 代码链接:https://github.com/SunzeY/AlphaCLIP 通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。 图1 Alpha-C...
github地址:https://aleafy.github.io/alpha-clip 背景: CLIP模型因其强大的图像-文本对齐能力而被广泛应用,但其局限性在于对图像中目标的区域级别关注不足。传统方法多通过裁剪、后处理(如ROI Pooling)提取区域特征,容易丢失上下文信息或导致特征不够精细。Alpha-CLIP通过引入Alpha通道,增强了CLIP在区域级别任务中的...
代码链接:https://github.com/SunzeY/AlphaCLIP 通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。
* 论文链接:https://arxiv.org/abs/2312.03818 * 项目主页:https://aleafy.github.io/alpha-clip * 代码链接:https://github.com/SunzeY/AlphaCLIP1. 图像分类 如图所示,对于ImagNet的一张图片,我们可以通过alpha-map控制CLIP去关注鱼或渔夫。 以ImageNet的Zero-Shot Classification作为评价指标,我们验证了在对...
论文链接:https://arxiv.org/abs/2312.03818项目主页:https://aleafy.github.io/alpha-clip代码链接:https://github.com/SunzeY/AlphaCLIP 通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分...
These model trained with original CLIP text-encoder from orignal CLIP codebase from OpenAI. The text-encoder stays fixed during the whole training process. test metric is classification accuracy on Imagenet-S dataset. () is improved acc compared to original CLIP from openai. train on grit-1m ...
代码链接:https://github.com/SunzeY/AlphaCLIP 通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。