OpenCV简介

OpenCV结构

  OpenCV有两个大版本,即OpenCV2和OpenCV3。根据功能和需求的不同,OpenCV中的函数接口大致可以分为如下几部分:

  • core:核心模块,包括了OpenCV中最基本的结构(矩阵、点线和形状等)以及相关的基础运算/操作
  • imgproc:图像处理模块,包含和图像相关的基础功能(滤波、梯度、改变大小等),以及一些衍生的高级功能(图像分割、直方图、形态分布和边缘/直线提取等)。
  • highgui:提供了用户界面和文件读取的基本函数,比如图像显示窗口的生成和控制,图像/视频文件的IO等。

  针对视频和一些特别的应用,OpenCV也提供了如下强劲的支持:

  • video:用于视频分析的常用功能,比如光流法(Optical Flow)和目标跟踪等。
  • caib3d:三维重建、立体视觉和相机标定等相关功能。
  • features2d:二维特征相关的功能,主要是一些不受专利保护的、商业友好的特征点检测和匹配等功能,比如ORB特征。
  • object:目标检测模块,包含级联分类和 Latent SVM。
  • ml:机器学习算法模块,包含一些视觉中最常用的传统机器学习算法。
  • flann:最近邻算法库, Fast Library for Approximate Nearest Neighbors,用于在多维空间进行聚类和检索,经常和关键点匹配搭配使用。
  • gpu:包含了一些gpu加速的接口,底层的加速是CUDA实现。
  • photo:计算摄像学( Computational Photography)相关的接口,当然这只是个名字,其实只有图像修复和降噪而已。
  • stitching:图像拼接模块,有了它可以自己生成全景照片。
  • nonfree:受到专利保护的一些算法,其实就是SIFT和SURF。
  • contrib:一些实验性质的算法,考虑在未来版本中加入。
  • legacy:字面是遗产,意思就是废弃的一些接口,将其保留下来是考虑到向下兼容。
  • ol:利用 OpenCL并行加速的一些接口
  • superres:超分辨率模块,其实就是BTV-Ll(Biliteral Total Variation regularization)算法。
  • viz:基础的3D渲染模块,其实底层就是著名的3D工具包VTK(Visualization Toolkit)。

安装和使用OpenCV

ubuntu下的安装

1
sudo apt install libopencv-dev python-opencv

Python-OpenCV基础

图像的表示

  通过单通道的灰度图像在计算机中表示,就是一个8位无符号整形矩阵。在OpenCV的C++代码中,表示图像有个专门的结构cv::Mat,不过在Python-OpenCV中,用Numpy的Array表示。如果是多通道情况,如RGB三通道,则第一个维度是高度,第二个维度是宽度,第三个维度是通道。

  右上角的矩阵你每一个元素都是一个三维数组,分别代表这个像素上的三个通道的值。最常见的RGB通道中,第一个元素就是红色的值,第二个元素就是绿色的值,第三个元素是蓝色的值。RGB是最常见的情况,然而在OpenCV中,默认的图像表示却是反过来的,也就是BGR。如图b所示,可以看到,前两行的颜色顺序都变动了,最后一行是三个通道等值的灰度图,所以没有影响。图像坐标的起始点是在左上角,所以行对应的是y,列对应的是x。

下面的代码显示numpy中同样的array在OpenCV中的显示和matplotlib中的显示效果有何不同。

1
2
3
4
5
6
7
8
9
10
import numpy as np
import cv2
import matplotlib.pyplot as plt
img=np.array([
[[255,0,0],[0,255,0],[0,0,255]],
[[255,255,0],[255,0,255],[0,255,255]],
[[255,255,255],[128,128,128],[0,0,0]]
],dtype=np.uint8)
plt.imsave('img_plt.png',img)
cv2.imwrite('img_cv2.png',img)

  生成的结果就是上图中RGB表示和BGR表示。不管是RGB还是BGR,都是高度x宽度x通道数,HxWxC的表达方式,而在深度学习中,因为要对不同通道应用卷积,所以用另一种方式:CxHxW,就把,每个通道都单独表达成一个二维矩阵。

基本图像处理

存取图像

  读取图像用cv2.imread()函数,可以按照不同模式读取,一般最常用到的是读取单通道灰度图,或者直接默认读取多通道。保存图像用cv2.imwrite()函数,注意保存的时候是没有单通道这一说的,根据保存文件名的后缀和当前array维度,OpenCV自动判断存储的通道。另外,压缩格式还可以指定存储质量。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import cv2
color_img=cv2.imread('317611_90.jpeg')
print(color_img.shape)
# 直接读取单通道
gray_img=cv2.imread('317611_90.jpeg',cv2.IMREAD_GRAYSCALE)
'''
cv2.IMREAD_COLOR:彩色图,默认值(1)
cv2.IMREAD_GRAYSCALE:灰度图(0)
cv2.IMREAD_UNCHANGED:包含透明通道的彩色图(-1)
'''
print(gray_img.shape)
# 把单通道图片保存后,再读取,仍然是3通道,相当于把单通道值复制到3个通道保存
cv2.imwrite('test_grayscale.jpeg',gray_img)
reload_grayscale=cv2.imread('test_grayscale.jpeg')
print(reload_grayscale.shape)
# cv2.IMWRITE_JPEG_QUALITY指定jpg质量,范围为0-100,默认95,越高画质越好,文件越大
cv2.imwrite('test_imwrite.jpeg',color_img,(cv2.IMWRITE_JPEG_QUALITY,100))
# cv2.IMWRITE_PNG_COMPRESSION指定png质量,范围为0-9,默认3,越高画质越差,文件越小
cv2.imwrite('test_imwrite.png',color_img,(cv2.IMWRITE_PNG_COMPRESSION,0))

  显示图片

1
2
cv2.imshow('input_img',gray_img)
cv2.waitKey(0)

  cv2.imshow()参数1是窗口的名字,参数2是要显示的图片。不同窗口之间用窗口名区分,所以窗口名相同就表示是同一个窗口。
cv2.waitKey() 是让程序暂停的意思,参数是等待时间(毫秒ms)。时间一到,会继续执行接下来的程序,传入0的话表示一直等待。等待期间也可以获取用户的按键输入:k = cv2.waitKey(0)。
  也可以先用cv2.namedWindow()创建一个窗口,之后再显示图片:

1
2
3
cv2.nameWindow('input_img',cv2.WINDOW_BORMAL)
cv2.imshow('input_img',gray_img)
cv2.waitKey(0)

  cv2.nameWindow()函数参数1是窗口的名字,参数2默认是cv2.WINDOW_AUTOSIZE,表示窗口大小自适应图片,也可以设置为cv2.WINDOW_NORMAL,表示窗口大小可调整。`

缩放、裁剪和补边

  缩放通过cv2.resize()函数实现,裁剪则是利用array自身的下标截取实现,此外OpenCV还可以给图像补边,这样能对一幅图像的形状和感兴趣区域实现各种操作。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import cv2
# 600x400
img=cv2.imread('317611_90.jpeg')
img_200x200=cv2.resize(img,(200,200))
# 不直接指定缩放后大小,通过fx和fy指定缩放比例,0.5则长宽都为原来一半
# 等效于cv2.resize(img,(300,200))
# 差值方法默认是cv2.INTER_LINEAT 这里指定为最邻近插值
img_300x200=cv2.resize(img,(0,0),fx=0.5,fy=0.5,interpolation=cv2.INTER_NEAREST)
# 在上一张图片的基础上,上下各贴50像素的黑边
img_300x300=cv2.copyMakeBorder(img_300x200,50,50,0,0,cv2.BORDER_CONSTANT,value=(0,0,0))
pathch_tree=img[20:150,-180:-50]
cv2.imwrite('cropped_tree.jpg',pathch_tree)
cv2.imwrite('resized200x200.jpg',img_200x200)
cv2.imwrite('resized300x200.jpg',img_300x200)
cv2.imwrite('bordered_300x300.jpg',img_300x300)

色调、明暗、直方图和Gamma曲线

  除了区域,图像本身的属性操作也很多,比如可以通过HSV空间对色调和明暗进行调节。HSV空间是由美国的图形学专家A. R. Smith提出的一种颜色空间,HSV分别是色调(Hue)、饱和度(Saturation)和明度(Value)。在HSV空间中进行调节就避免了直接在RGB空间中调节时还需要考虑3个通道的相关性。OpenCV中H的取值是[0,180),其他两个通道的取值都是[0,256)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 通过cv2.cvtColor把图像从RGB转换到HSV
img_hsv=cv2.cvtColor(img,cv2.COLOR_BGR2HSV)
# H空间中,绿色比黄色值高一点,所以给每个像素+15,黄色的树叶就会变绿
turn_green_hsv=img_hsv.copy()
turn_green_hsv[:,:,0]=(turn_green_hsv[:,:,0]+15) % 180
turn_green_img=cv2.cvtColor(turn_green_hsv,cv2.COLOR_HSV2BGR)
cv2.imwrite('turn_green.jpg',turn_green_img)
# 减小饱和度会让图片损失鲜艳变得更灰
colorless_hsv=img_hsv.copy()
colorless_hsv[:,:,1]=0.5*colorless_hsv[:,:,1]
colorless_img=cv2.cvtColor(colorless_hsv,cv2.COLOR_HSV2BGR)
cv2.imwrite('colorless.jpg',colorless_img)
# 减小透明度为原来的一半
darker_hsv=img_hsv.copy()
darker_hsv[:,:,2]=0.5*darker_hsv[:,:,2]
darker_img=cv2.cvtColor(darker_hsv,cv2.COLOR_HSV2BGR)
cv2.imwrite('darker.jpg',darker_img)

  无论是HSV还是RGB,都较难一眼就对像素中值的分布有细致的了解,这时候就需要直方图。如果直方图中的成分过于靠近0或255,可能出现了暗部细节不足或亮部细节丢失的情况。这时候,一种常用的方法是考虑用Gamma变换来提升暗部细节。Gamma变换是矫正相机直接成像和人眼感受图像差别的一种常用手段,简单来说就是通过线性变换,让图像从对曝光强度的线性响应变得更接近人眼感受到的响应。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
from multiprocessing import Process
import os
import imghdr
from os.path import join
from progressbar import ProgressBar
import shutil
path='/media/hl/新加卷/mycode/BDStreetView/photos'

def process_data(filelist):
unvalid=[]
for filepath in filelist:
filename = os.path.basename(filepath)
check=imghdr.what(filepath)
if not check:
fpath = os.path.dirname(filepath)
name=filename.split('_')[0]
unvalidpath=fpath.split('/')[:-1]
unvalid.append(name)
shutil.copy(filepath,join('/'.join(unvalidpath)+'/unvalid',filename)) #拷贝文件
os.remove(filepath)
open('unvalid2.txt','a').write('\n'.join(unvalid))
if __name__=="__main__":
full_list=[]
for root,dirs,filenames in os.walk(path):
for name in filenames:
full_list.append(join(root,name))
n_total=len(full_list)
n_processes=32
length=n_total/n_processes
indices=[int(round(i*length)) for i in range(n_processes+1)]
# 生成每个进程要处理的子文件列表
sublists=[full_list[indices[i]:indices[i+1]] for i in range(n_processes)]
# 生成进程
processes=[Process(target=process_data,args=(x,)) for x in sublists]
# 并行处理
for p in processes:
p.start()
for p in processes:
p.join()

  可以看到,Gamma变换后的暗部细节比原图清楚很多,并且从直方图来看,像素值也集中在0附近变得散开了一些。