Paper_CV_2 object-localization 目标定位

[toc]

目标定位

— 目标定位和目标检测，通常作为一个整体进行建模。

VoxelNet
Frustum PointNets

detection

定位任务评估方法：Intersection over Union (IoU)

IoU用来衡量模型最终输出的矩形框或者测试过程中找出的候选区域（Region Proposal）与实际的矩形框（Gound Truth）的差异程度，定义为两者交集和并集的比值。通常我们将这个阈值指定为0.5，即只要模型找出来的矩形框和标签的IoU值大于0.5，就认为成功定位到了目标。

IoU

目标定位的两种思路

看作回归问题。对于单个目标的定位，比较简单的思想就是直接看作是关于目标矩形框位置的回归问题，也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练，采用L2损失函数。对于固定的多个目标定位，也采用类似的方法，只不过输出由4个变成4*C个，C为需要定位的目标的类别数。这样，完整的识别定位问题的损失函数由两部分组成：第一部分是用于识别的损失，第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易，当数量不定时（比如检测任务）就不适用了。

滑动窗口法。这种方法的一个典型代表是overFeat模型，它用不同大小的矩形框依次遍历图片中所有区域，然后在当前区域执行分类和定位任务，即每一个滑过的区域都会输出一个关于目标类别和位置信息的标签，最后再把所有输出的矩形框进行合并，得到一个置信度最高的结果。这种方法其实和我们人的思维很相似，但是这种方法需要用不同尺度的滑动框去遍历整幅图像，计算量是可想而知的。