coordinates经过一顿处理,变成了shape=(P, C)的coord embedding,可以简单理解为经过一个Linear层,提升了维度。 labels不直接输入模型计算,而是用对应的tokens,一个token是一个长度为C的向量,所以tokens.shape=(P, C)。 然后,coord embedding和label tokens相加,得到的结果称之为point embedding吧。 然后,points和box...
在这次报告中,我们将简要回顾 SAM 及其功能,并讨论我们对 SAM 进行拓展和应用的进一步研究。特别地,我们将介绍 HQ-SAM 以及 SAM-PT。HQ-SAM,全称 Segment Anything in High Quality,是在现有的 SAM 基础上进行改进的一个能够分割任何物体的算法,具有更好的分割能力,特别是在处理具有复杂结构的对象时,能够更准确...