cs231n-lecture11图像检测和分割课程笔记

cs231n-lecture11图像检测和分割课程笔记 2018.01.16

语义分割

语义分割（semantic segmentation）

输入：图像

处理：需对图片的每个像素进行分类。不区别同类目标，关注像素点。这也是它的不足。

输出：

可行方法：

滑动窗口Sliding Window，将原始图片分成局部小块，进行图像分类，并将小图片的中心像素进行类别标记。由此循环，计算复杂度极高。因为卷积过程中有很多重复计算，两块小图片很可能一半是重叠的。
全连接卷积网络。

分类定位

分类和定位（Classification + Localization）

与目标检测不同，定位前提是知道某物体是要找的，或者不止一个。先对图片进行物体分类，再画上边界（bounding box）告知物体位置。

多任务loss（multi-task loss）一般处理，参数加权求和。

人体姿势估计（Human Pose Estimation）

图像中固定几个点的思路：除了分类和定位，还可以应用到人体姿势估计（Human Pose Estimation）上

输入：人像图片

输出：人体关节的点位（假定14个关节点位），网络预测人体姿势

回归损失：L2欧几里得损失，（平滑）L1损失

分类问题，考虑交叉熵损失，softmax损失或SVM边界类型损失。

对象检测

对象检测（object detection），计算机视觉核心领域

输入：图像

输出：根据固定类别，每当图像中出现其中类别的对象时，围绕对象画框（box），并预测从属类别。与分类定位不同，因为每张输入图片其中的对象是不固定，所以此问题具有挑战性。

可行方法：

使用滑动窗口。如何选择窗口（图块）大小？复杂度特别高
候选区域（region proposals）

R-CNN （基于候选框的目标检测模型），使用region proposal network寻找备选区域，（也叫兴趣区域或ROI）可以得到大概2k的ROI，但是ROI尺寸不同，为了进入CNN，调整备选区域为固定尺寸。基于区域选择的CNN（R-CNN）可以做回归，用于矫正对象外的框（bounding box），不光对这些备选区域进行分类，还对边界进行预测和调整。是多任务损失。

R-CNN问题：效率低，时间空间复杂度很高

Fast R-CNN:不在按ROI处理，先通过一些卷积层网络，对于feature map再使用备选区域，Selective Search选择搜索。

Faster R-CNN

Detection without Proposals ：YOLO/SSD

图像分割

图像分割 Instance segmentation

输入：图像

输出：类似于对象检测，还需要预测出整个分割区域。对象检测+语义分割

Mask R-CNN，效果很好