Paper_CV_2 object-localization 目标定位

[toc]

目标定位

— 目标定位和目标检测,通常作为一个整体进行建模。

  • VoxelNet

  • Frustum PointNets

detection

定位任务评估方法:Intersection over Union (IoU)

IoU用来衡量模型最终输出的矩形框或者测试过程中找出的候选区域(Region Proposal)与实际的矩形框(Gound Truth)的差异程度,定义为两者交集和并集的比值。通常我们将这个阈值指定为0.5,即只要模型找出来的矩形框和标签的IoU值大于0.5,就认为成功定位到了目标。

IoU

目标定位的两种思路

看作回归问题。对于单个目标的定位,比较简单的思想就是直接看作是关于目标矩形框位置的回归问题,也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练,采用L2损失函数。对于固定的多个目标定位,也采用类似的方法,只不过输出由4个变成4*C个,C为需要定位的目标的类别数。这样,完整的识别定位问题的损失函数由两部分组成:第一部分是用于识别的损失,第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易,当数量不定时(比如检测任务)就不适用了。

滑动窗口法。这种方法的一个典型代表是overFeat模型,它用不同大小的矩形框依次遍历图片中所有区域,然后在当前区域执行分类和定位任务,即每一个滑过的区域都会输出一个关于目标类别和位置信息的标签,最后再把所有输出的矩形框进行合并,得到一个置信度最高的结果。这种方法其实和我们人的思维很相似,但是这种方法需要用不同尺度的滑动框去遍历整幅图像,计算量是可想而知的。