从像素预测到可提示分割:UNet、DeepLab、Mask2Former 到 Segment Anything
1. 视觉分割任务回顾:从像素预测到结构理解
视觉分割是计算机视觉体系中一类基础而关键的任务。与图像分类主要回答“图像中包含哪些语义概念”不同,分割进一步要求回答“这些对象在图像中的具体位置、形状与边界是什么”。这意味着分割并非以整幅图像或候选框为单位进行判断,而是直接作用于像素层面,需要对图像中每一个像素给出明确的归属结果。
正因为输出粒度从“区域”细化到“像素”,视觉分割不仅考验模型的语义理解能力,更对其空间表达能力、上下文建模能力以及结构化预测能力提出了更高要求。在进入可提示分割与通用分割模型的讨论之前,有必要首先对分割任务本身的定义、输出形式以及任务类型进行系统回顾,从而为后续模型结构与问题设定的演进奠定清晰而统一的概念基础。