第一章计算机视觉概述笔记

第一章计算机视觉概述

1.1计算机视觉简介

通常来说，完成视觉任务需要通过图像或视频来理解场景。这两个任务是相互促进，彼此关联的。
从工程学角度来看，计算机视觉主要研究的是 通过图像或视频来重建和理解场景，完成人类视觉可以完成的任务。
近年来，计算机视觉的目标有所改变：从识别出场景中所包含的物体以及场景中正在发生的事件

到推测视频中人的目的和意图，帮助人们理解视频中一些状态变化的原因以及对人的下一步行为进行预测

计算机视觉是一门交叉学科，涉及图像处理、模式识别、机器学习、人工智能、认知学以及机器人学等诸多学科。
- 图像处理是计算机视觉的基础。图像处理研究的是图像到图像的变换，输入和输出都是图像。
  - 常用图像处理操作：图像压缩、图像增强、图像恢复等。
  - 计算机视觉的输入是图像，而输出则是对图像的理解，在此过程中要用到很多图像处理的方法
- 模式识别研究是指使用不同的数学模型（包括统计模型、神经网络、支持向量机等）来对不同模式进行分类
  - 模式识别的输入可以是图像、语音、文本等数据
  - 计算机视觉中很多问题都可以视为分类问题
计算机视觉的目标：填充图像像素与高层语义之间的鸿沟。

理解：计算机看到的图像是数值矩阵，最终处理目标是将这些数值宗和奇，赋予图像一定的高层语义。
计算机视觉技术可以从图像或视频中获取两类信息：

第一类：语义信息（能够根据图像或视频得到对应场景的语义描述）

第二类：三维的度量信息
- 计算机视觉可以通过两幅或多幅二维图像恢复场景的三维信息，得到场景中物体距离摄像机的远近信息（深度信息）
- 深度图可以视为一幅图像，每个像素的值表示了该像素对应的场景中的点距离摄像机距离的远近。
计算机视觉分为三个层次
- 底层视觉
  - 主要研究图像底层特征的提取与表示，包括边缘检测、角点检测、纹理分析以及特征点的匹配和光流的计算等内容。
- 中层视觉
  - 主要研究场景的几何和运动，包括立体视觉与运动视觉、图像分割以及目标跟踪等内容。
- 高层视觉
  - 主要研究物体的检测识别以及场景理解等具有高层语义的内容。

1.2计算机视觉的发展历史

计算机视觉研究的开端：1966年，麻省理工学院（MIT）人工智能实验室Marvin Minsky要求他的学生Gerald Jay Sussman等利用一个暑假的时间完成一个将相机连接到计算机上，使计算机能够描述它所看到的场景的项目。
计算机视觉早期对于场景理解的研究主要是针对积木世界（blocks world）进行的，检测边缘和对边缘的拓扑结构进行分析可以得到物体三维结构。
里程碑：马尔——《视觉：从计算的视角研究人的视觉信息表达与处理》1982年出版

1.3 计算机视觉领域的学术会议和期刊

三大顶级会议分别是：CVPR，ICCV，ECCV。

ICCV（IEEE International Conference on Computer Vision）国际计算机视觉会议。ICCV由美国电气与电子工程师学会（InstituteofElectrical&ElectronicEngineers，IEEE）主办，由美洲、欧洲以及亚洲的一些科研实力将强的国家轮流举办。通常是每两年举行一次。首届ICCV于1987年在伦敦揭幕。ICCV最佳论文奖名为马尔奖。
CVPR（IEEE Conference on Computer Vision and Pattern Recognition）国际计算机视觉与模式识别会议，通常是每年举行一次，第一届1983年美国华盛顿举行，但举行地点一直是美国本土，美国西部、中部、东部地区之间轮换。大约是每年6月。CVPR有着较为严苛的录用标准，会议整体的录取率通常不超过30%，而口头报告的论文比例更是不高于5%。
ECCV（European Conference on Computer Vision）欧洲计算机视觉国际会议，通常两年举行一次。举办地点在欧洲国家中循环。每次会议在全球范围录用论文300篇左右，主要的录用论文都来自美国、欧洲等顶尖实验室及研究所，中国大陆的论文数量一般在10-20篇之间。ECCV2010的论文录取率为27%。

+数据参考：https://www.codenong.com/cs106899065/

其他著名学术会议

亚洲计算机视觉会议（Asian Conference on Computer Vision，ACCV）
图像处理国际会议（International Conference on Image Processing, ICIP）
模式识别国际会议(International Conference on Pattern Recognition, ICPR)
英国计算机视觉会议(British Machine Vision Conference ,BMVC)

顶级学术期刊

IEEE模式分析与机器智能（IEEE Transactions on Pattern Analysis and Machine Intelligence, TPAMI）汇刊
计算机视觉国际（International Journal of Computer Vision ,IJCV）期刊
IEEE图像处理事务（Transactions on Image Processing ,TIP）汇刊

1.4计算机视觉的应用

1.4.1智能机器人

典型应用：基于视觉的机器人定位、自动避障、视觉伺服以及自动装配等

1.4.2医学图像分析

医学图像中的成像方式：
- X射线成像
- 计算机断层扫描（Computed Tomography,CT）成像
- 核磁共振（Magnetic Resonance Imaging, MRI）成像
- 超声波检测（Ultrasonic Testing,UT）成像
应用：
- 对医学图像进行增强以及自动标记来帮助医生进行诊断
- 协助医生对感兴趣区域进行测量和比较
- 对图像进行自动分割和解释
- 对各种病症图像进行分类和检索
- 基于所拍摄图像进行三维器官重建以及基于视觉的机器人手术等

1.4.3智能交通

应用：
- 自动检测和跟踪路面上的车辆
- 识别车牌信息、车辆的车型信息、驾驶员的人脸信息
- 自动识别驾驶员的行为（ eg: 是否在开车时打电话）
- 自动驾驶：eg:谷歌的无人车使用相机、雷达感应器和激光测距机来“看”路面的交通状况，从而实现自动驾驶
- 辅助驾驶：通过在车身四周安装摄像机等传感器获取周围环境信息，对驾驶员进行提醒和辅助
受益：
交通违章检测、不停车收费、拥堵费征收、套牌车辆检测、代替消除违章检测、开车打电话违章行为检测。
极大方便人们的出行并提高交通安全程度。

1.4.4智能监控

疑犯搜索
重点区域监控
异常行为检测

1.4.5日常应用

根据人脸整理照片
人脸识别登陆
微笑自动抓拍
基于手势和动作进行交互

1.5计算机视觉面临的挑战

计算机视觉是通过图像/视频来推断影响图像/视频的因素的。

影响因素：

摄像机的模型
场景中的光照
场景中物体的形状以及运动

即计算机视觉的成像过程的逆过程，充满不确定性。

第一章 计算机视觉概述

1.1计算机视觉简介

1.2计算机视觉的发展历史

1.3 计算机视觉领域的学术会议和期刊

三大顶级会议分别是：CVPR，ICCV，ECCV。

其他著名学术会议

顶级学术期刊

1.4计算机视觉的应用

1.4.1智能机器人

1.4.2医学图像分析

1.4.3智能交通

1.4.4智能监控

1.4.5日常应用

1.5计算机视觉面临的挑战

第一章计算机视觉概述