ClipCap提出了一种基于Mapping Network的Encoder-Decoder模型,其中Mapping Network扮演了图像空间与文本空间之间的桥梁。模型主要分为三部分: 图像编码器:采用CLIP模型,负责对输入的图像进行编码,得到一个图片向量clip_embed。 Mapping Network:扮演图像空间与文本空间之间的桥梁,负责将图片向量clip_embed映射到文本空间中,得...
ClipCap .gitattributes .gitignore README.md requirements.txt 一个项目用于两个课程设计也挺不错^_^ 项目简介 本项目从学校课程设计中诞生,参考ClipCap进行中文图像标注工作。 该项目所使用数据集为Flickr30k,由于该数据集里面全是人物相关图像,所以导致本项目训练所得模型对包含人物的图像标注效果较好,而不含人物...
clipcap-chinese 基于clipcap的看图说话image caption模型 image caption即我们常说的看图说话:给定一张图片,生成该图片对应的自然语言描述。 该项目对 clipcap: clip prefix for image captioning 论文进行介绍,并且对论文在flickr30k中文数据...
Breadcrumbs ClipCap-Chinese /ClipCap / model.pyTop File metadata and controls Code Blame 58 lines (46 loc) · 2.21 KB Raw import torch from transformers import GPT2LMHeadModel class Model(torch.nn.Module): def __init__(self, gpt, prefix_len, const_len, tokenizer, device='cpu'): sup...
DIP & NLP期末大作业 — 课程设计. Contribute to BeatsLeo/ClipCap-Chinese development by creating an account on GitHub.
BeatsLeo/ClipCap-ChinesePublic NotificationsYou must be signed in to change notification settings Fork3 Star17 Files main ClipCap data models test_images dataset.py generate.py model.py process_image.py train.py use.ipynb use.py .gitattributes ...
Files main ClipCap data models test_images dataset.py generate.py model.py process_image.py train.py use.ipynb use.py .gitattributes .gitignore README.md requirements.txtBreadcrumbs ClipCap-Chinese /ClipCap / generate.py Latest commit
ClipCap data models test_images dataset.py generate.py model.py process_image.py train.py use.ipynb use.py .gitattributes .gitignore README.md requirements.txt Breadcrumbs ClipCap-Chinese / ClipCap/ Directory actions More options Latest commit Cannot retrieve latest commit at this time. HistoryHi...