用Transformer进行图像语义分割,实际效果如何?

正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。因此上下文建模对图像语义