一、Cutie是什么?
Cutie 是一个由 Ho Kei Cheng、Seoung Wug Oh、Brian Price、Joon-Young Lee 和 Alexander Schwing 开发的视频对象分割(VOS)框架,旨在通过对象级别的内存读取提高视频对象分割的效果和效率。该项目的核心思想是利用高级别的对象查询来改进视频中目标对象的表示和分割,与传统的基于像素级别的内存读取方法相比,Cutie 在处理分散因素时表现出更好的鲁棒性和准确性。
Cutie 项目的亮点在于它采用了一种称为 query-based object transformer 的技术,这种技术通过对象查询对高分辨率的像素特征图进行迭代重构和交互,以此实现准确的视频对象分割。该框架还包括了一个前景-背景掩模注意力机制,使得前景对象与背景的语义得到了清晰的分离。在挑战性较高的 MOSE 数据集上,Cutie 相比前作 XMem 在 J&F 指标上提高了 8.7 个百分点,同时保持了类似的运行时间 。
二、Cutie的网站地址:
1、GIthub开源:
https://github.com/hkchengrex/Cutie
三、Cutie的技术原理:
我们提出了 Cutie,一种具有对象级内存读取功能的视频对象分割(VOS)网络,它将内存中的对象表示放回到视频对象分割结果中。最近关于 VOS 的工作采用了自下而上的像素级内存读取,这种方法由于匹配噪声而陷入困境,尤其是在存在干扰因素的情况下,导致在更具挑战性的数据中性能较低。相比之下,Cutie 通过调整一小组对象查询来执行自上而下的对象级内存读取,以便通过基于查询的对象变换器 (qt ,因此Cutie)迭代地与自下而上的像素特征进行重构和交互。对象查询充当目标对象的高级摘要,同时保留高分辨率特征图以进行准确分割。与前景-背景屏蔽注意力一起,Cutie 干净地将前景对象的语义与背景分开。在具有挑战性的 MOSE 数据集上,Cutie 在运行时间相似的情况下比 XMem 提高了 8.7 J&F,在运行速度是 DeAOT 的三倍的情况下比 DeAOT 提高了 4.2 J&F。