提出了一种多模态字幕感知网络(MCANet),这是首个基于语言的无需训练的VAD方法,利用大语言模型(LLMs)仅通过场景描述检测异常。 MCANet包含四个主要模块:前两个模块分别通过图像文本和音频文本相似性清洗并优化噪声字幕;第三个模块利用LLM整合场景动态;第四个模块基于视频文本相似性聚合语义相似帧的得分。 实验结果表明...
提出一种基于 Fire-MCANet(Fire-Max ConvolutionActivateNetworks)的火焰检测模型.该模型首先构建一种 MCA(MaxConvolutionActivate)模块,使 用大卷积核获取感受野,提高特征提取的能力;其次构建主干网络 MCANetBlock,在提升感受野的同时,降低模型 的参数量和计算量;最后引入 CA(CoordinateAttention)注意力机制获取火焰的位置...