1.计算机视觉的定义
广义与狭义
从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力,就是指生物视觉系统体现的视觉能力。
从狭义上讲,计算机视觉是以图像(视频)为输入,以对环境的表达和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。
狭义
定义:一个通过技术帮助计算机“看到”并理解数字图像内容的研究领域,例如理解照片和视频的内容。
2.与计算机视觉密切相关的概念与计算机视觉密切相关的概念有机器视觉,图像处理与分析,图像和视频理解。
3.计算机视觉的应用
物体识别和检测
给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测、车辆检测等细分类的检测算法。
3.1人脸检测
大多数的数字照相机和智能手机都有这个功能
智能对焦,曝光补偿和裁剪。
3.2人脸识别
通过人脸识别,将图片分类,可以向朋友推荐我的照片,当照片看起来像我,建议标记我。这个功能通过比较你被标记的照片来建议朋友在新照片中标记你。这可以帮助你的朋友给照片贴上标签并分享他们的照片,而且更容易发现你的照片何时被发布。
人脸识别(FaceRecognition),就是通过人的面部照片实现身份认证的的技术。
认证方式:身份确认和身份辨认。
身份确认:这个人是不是Ta(海关身份认证、ATM刷脸取款)
身份辨认:哪个人是Ta(刑侦领域的嫌疑人排查)
人脸识别系统的基本组成
图像采集:通过光学设备采集包含人面部区域的图像。
数据预处理:对采集到的图像做前期处理,主要包括人脸定位和正则化。人脸定位是从图中找到面部区域;正则化是对定位到的人脸图像进行调整,以减少光照、位置、姿态等干扰因素的影响。
特征提取:从面部图像中提取出对人脸具有较强表达能力和较强区分能力的典型特征。这些特征可以是局部各部件(如眼、口、鼻)的局部特征,也可以是轮廓、灰度等整体特征。
模式匹配:基于特征向量对不同图片进行对比,最终会给出一个匹配分数,代表两幅图的相似程度。
4.计算机视觉的应用方向
语义分割
让计算机根据图像的语义来进行分割语义在语音识别中指的是语音的意思,在图像领域,语义指的是图像的内容,对图片意思的理解。
目前语义分割的应用领域主要有:地理信息系统、无人车驾驶、医疗影像分析、机器人等领域。
运动和追踪
视觉跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而进行下一步的处理与分析,实现对运动目标的行为理解,以完成更高一级的检测任务。
视觉问答
系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言处理(NLP)来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。
三维重建
通过摄像机获取场景物体的数据图像,并对此图像进行分析处理,再结合计算机视觉知识推导出现实环境中物体的三维信息。
计算机视觉(机器视觉)硬件实现——ISP图像信号处理器
ISP是ImageSignalProcessor的简称,也就是图像信号处理器。
DSP是DigitalSignalProcessor的缩写,也就是数字信号处理器。
ISP一般用来处理ImageSensor(图像传感器)的输出数据,如做AEC(自动曝光控制)、AGC(自动增益控制)、AWB(自动白平衡)、色彩校正、LensShading、Gamma校正、祛除坏点、AutoBlackLevel、AutoWhiteLevel等等功能的处理。
而DSP功能就比较多了,它可以做些拍照以及回显(JPEG的编解码)、录像以及回放(Video的编解码)、H.的编解码、还有很多其他方面的处理,总之是处理数字信号了。ISP是一类特殊的处理图像信号的DSP。
ISP架构方案:分为独立(外置)与集成(内置)两种形式。
CPU处理器包括:AP、BP、CP。其中BP:基带处理器、AP:应用处理器、CP:多媒体加速器。
ISP的主要内部构成
如下图所示,ISP内部包含CPU、SUPIP、IF等设备,事实上,可以认为ISP是一个SOC(systemofchip),可以运行各种算法程序,实时处理图像信号。
CPU:CPU即中央处理器,可以运行AF、LSC等各种图像处理算法,控制外围设备。现代的ISP内部的CPU一般都是ARMCortex-A系列的,例如Cortex-A5、Cortex-A7。
SUBIP:SUBIP是各种功能模块的通称,对图像进行各自专业的处理。常见的SUBIP如DIS、CSC、VRA等。
图像传输接口:图像传输接口主要分两种,并口ITU和串口CSI。CSI是MIPICSI的简称,鉴于MIPICSI的诸多优点,在手机相机领域,已经广泛使用MIPI-CSI接口传输图像数据和各种自定义数据。外置ISP一般包含MIPI-CSIS和MIPI-CSIM两个接口。内置ISP一般只需要MIPI-CSIS接口。
通用外围设备:通用外围设备指I2C、SPI、PWM、UART、WATCHDOG等。ISP中包含I2C控制器,用于读取OTP信息,控制VCM等。对于外置ISP,ISP本身还是I2C从设备。AP可以通过I2C控制ISP的工作模式,获取其工作状态等。
ISP的控制结构
ISP包括:1、ISP逻辑2、运行在其上的firmware
lens将光信号投射到sensor的感光区域后,sensor经过光电转换,将Bayer格式的原始图像送给ISP,ISP经过算法处理,输出RGB空间域的图像给后端的视频采集单元。在这个过程中,ISP通过运行在其上的firmware(固件)对ISP逻辑,从而对lens和sensor进行相应控制,进而完成自动光圈、自动曝光、自动白平衡等功能。其中,firmware的运转靠视频采集单元的中断驱动。PQTools工具通过网口或者串口完成对ISP的在线图像质量调节。
ISP由ISP逻辑及运行在其上的Firmware组成,逻辑单元除了完成一部分算法处理外,还可以统计出当前图像的实时信息。Firmware通过获取ISP逻辑的图像统计信息,重新计算,反馈控制lens、sensor和ISP逻辑,以达到自动调节图像质量的目的。
ISP上的Firmware包含三部分
ISP的Firmware包含三部分,一部分是ISP控制单元和基础算法库,一部分是AE/AWB/AF算法库,一部分是sensor库。Firmware设计的基本思想是单独提供3A算法库,由ISP控制单元调度基础算法库和3A算法库,同时sensor库分别向ISP基础算法库和3A算法库注册函数回调,以实现差异化的sensor适配。ISPfirmware架构如图所示。
不同的sensor都以回调函数的形式,向ISP算法库注册控制函数。ISP控制单元调度基础算法库和3A算法库时,将通过这些回调函数获取初始化参数,并控制sensor,如调节曝光时间、模拟增益、数字增益,控制lens步进聚焦或旋转光圈等。
AP对ISP的操控方式
CPU处理器包括:AP、BP、CP。BP:基带处理器、AP:应用处理器、CP:多媒体加速器
这里所说的控制方式是AP对ISP的操控方式。
I2C/SPI:这一般是外置ISP的做法。SPI一般用于下载固件、I2C一般用于寄存器控制。在内核的ISP驱动中,外置ISP一般是实现为I2C设备,然后封装成V4L2-SUBDEV。
MEMMAP:这一般是内置ISP的做法。将ISP内部的寄存器地址空间映射到内核地址空间,
MEMSHARE:这也是内置ISP的做法。AP这边分配内存,然后将内存地址传给ISP,二者实际上共享同一块内存。因此AP对这段共享内存的操作会实时反馈到ISP端。
ISP处理流程
图像产生过程:景物通过Lens生成的光学图像投射到sensor表面上,经过光电转换为模拟电信号,消噪声后经过A/D转换后变为数字图像信号,再送到数字信号处理芯片(DSP)中加工处理。
所以,从sensor端过来的图像是Bayer图像,经过黑电平补偿(blacklevel