2023-01-30

计算机视觉（1）什么是计算机视觉？

Table of content

1. 计算机视觉应用
2. 视觉信息的处理方式
1. 2.1. 自底向上（Bottom-up）方式
2. 2.2. 自顶向下（Top-down）方式
3. 参考

计算机视觉是一个算法程序，接受各种视觉信号作为输入，比如图像信号，音频信号，视频信号，算法用于识别信号中的各种模式，比如车牌号，一个方框中包含几位数字和字母，最后基于算法的结果做出决策。

计算机视觉应用

如今，计算机视觉技术已经被广泛使用，从人脸认证，到自动驾驶计算机视觉应用都发挥了巨大的作用，常见的应用比如：图像处理，用于Photoshop、美图秀秀，物体跟踪，物体识别，视觉信息获取等。并且，随着深度学习技术的不断突破，使得计算机视觉应用更加广泛。

视觉信息的处理方式

传统的处理视觉信息方式分为两种，一是自底向上（Bottom-up）方式，二是自顶向下（Top-down）方式。

自底向上（Bottom-up）方式

自底向上方式通过整合早期低级决策的结果来做出越来越“高级”的决策。这里以车牌号识别为例：

第一步先找到图像中构成边的像素，第二部将这些像素连起来构成线，第三步将这些线连起来构成方框，因为车牌是长方形，第四步找到最合适的候选框及其边的像素，最后在这个框中做识别任务。

分析这种方式可以看出，Bottom-up方式是将大的图像信息分为小的区域，在小的区域中做分析任务，对应大致分为低等级分析，中等级分析和高级分析。低等级分析通过一些过滤算子找出图像中的边，中等级分析是将得到的边连起来组成小的区域或形状，高级分析就在这些小的区域中处理识别任务，就是根据特定领域的规则做决策，还是以车牌识别为例：

例子是以英国车牌为例，高级分析主要是根据不同的规则识别字母和数字，从左到右，为了区分第五个形状是“D”还是“0”，如果是三个字母开头，则后面是三个字符数字加一个字母，因此第五个就是“0”。从低等级到高等级分析，“语义（semantics）信息”等级也是在逐步提高。

什么是“语义（semantics）”
摘自Australian Institute for Machine Learning (AIML):
In general, semantics concerns the extraction of meaning from data. Semantic vision seeks to understand not only what objects are present in an image but, perhaps even more importantly, the relationship between those objects.
In semantic vision, an image is typically segmented into regions of interest. Each segment is allocated a classification so that all pixels in an image are assigned a class (e.g. car, road, footpath, person, tree, sky).
Contextual relationships provide important cues for understanding a scene.

大致意思是从像素数据中提取处有用的像素，来构成物体对象即我们感兴趣的区域，并且分析区域之间的联系。