赵工的个人空间


专业技术部分转网页计算转业余爱好部分


 图像处理与人工智能

首页 > 专业技术 > 图像处理与人工智能 > 图像配准和识别
图像配准和识别
  1. 基于灰度信息的图像配准算法:
  2. 基于特征的图像配准方法:
  3. 基于优化策略的图像配准算法:
  4. 图像识别原理:

图像配准用于将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配,广泛地应用于遥感数据分析、计算机视觉、医学图像处理等领域,主要分为几类:
·多观察点配准:对从不同观察点获得的同一场景的多幅图像进行配准
·时间序列配准:即从不同时间获取的图像之间的配准
·多模态配准:即不同传感器获取的图像之间的配准
·模板配准:即场景到模型的配准,如从遥感数据中定位识别已知的飞机场、车站等场景
进行图像配准的第一步是进行图像分割,从而找到并提取出图像的特征。然后可以通过一些变换,如刚体变换、仿射变换、投影变换和非线性变换。刚体变换使得一幅图像中任意两点间的距离变换到另一幅图像中后仍然保持不变;仿射变换使得一幅图像中的直线经过变换后仍保持直线,并且平行线仍保持平行;投影变换将直线映射为直线,但不再保持平行性质,主要用于二维投影图像与三维体积图像的配准;非线性变换也称弯曲变换,把直线变换为曲线,这种变换一般用多项式函数来表示。
选择了一种相似性测度后,要采用优化算法使该测度达到最优值。经过坐标变换后,两幅图像中相关点的几何关系已经一一对应,接下来需要选择一种相似度测度来衡量两幅图像的相似程度,并通过不断地改变变换参数,使得相似性测度达到最优。目前常用的相似度测度有均方根距离、相关性、归一化互相关、互信息、归一化互信息、相关比、灰度差的平方和等,常用的优化算法有穷尽搜索法、最速梯度下降法、单纯形法、共轭梯度法、Powell法、模拟退火法、遗传算法等。

1. 基于灰度信息的图像配准算法:

基于灰度的图像配准方法一般不需要对图像进行复杂的预先处理,而是利用图像本身具有的灰度的一些统计信息来度量图像的相似程度。这种方法实现简单,但应用范围较窄,不能直接用于校正图像的非线性形变,在最优变换搜索中需要巨大运算量。
设标准参考图像为R,待配准图像为S,R大小mxn,S大小MxN。基于灰度信息的图像配准的基本流程是,以参考图像R叠放在配准图像S上平移,参考图像覆盖被搜索图的那块区域称为子图,i和j为子图左上角在带配准图像S上的坐标。搜索范围1≤i≤M-m,1≤j≤N-n,通过比较R和Sij的相似性,完成配准过程。
根据采用的相似性度量函数不同,基于灰度信息的配准算法可分为互相关配准方法、最大信息配准法等。

1)互相关配准方法:

互相关配准方法要求参考图像和待匹配图像具有相似的尺度和灰度信息,并以参考图像作为模板在待匹配图像上进行遍历,计算每个位置处参考图像和待匹配图像的互相关。互相关最大的位置就是参考图像中与待匹配图像相应的位置。
常用的互相关计算公式有:
图像灰度配准
图像灰度配准
式中,R(x,y)和S(x,y)分别表示参考图像和待配准图像,图像灰度配准图像灰度配准分别表示R(x,y)和S(x+i,y+j)的均值。
由于噪声的存在,一般R和S不完全匹配,通常将其最大值的位置作为最佳匹配点来实现图像配准。互相关方法受噪声的影响和不同灰度属性或对比度差异的影响很大。

2)最大互信息配准方法:

基于互信息的配准方法基于信息理论的交互信息相似性准则,采用互信息作为两图像之间相似性度量,通过搜索最大互信息达到两图像配准的目的。
假设A和B为两个随机变量,它们的灰度概率密度分布分别为Pa(a)和Pb(b),灰度联合概率密度分布为Pab(a,b),则A和B之间的互信息I(A,B)表示为:
图像灰度配准
根据信息熵的定义:
图像灰度配准        图像灰度配准
公式可以改写为:
图像灰度配准
从统计学上看,如果A和B相互独立,则Pab(a,b)=Pa(a)Pb(b),且I(A,B)=0;如果A和B完全依赖,则Pab(a,b)=Pa(a)=Pb(b),此时I(A,B)最大。
在图像配准问题上,对于同一个个体,不同成像模式的图像在灰度上并不相似,有时还可能差别很大。但同一个个体对应像素点之间的灰度在统计学上并非独立,而是相关。以互信息作为两幅图像相似性测度进行配准的主要依据是,当两幅基于共同景物的图像达到最佳配准时,它们对应的图像特征的互信息最大。
由于互信息是由两幅图像的重合部分计算得到,因此它对重合部分的大小和灰度变换很敏感,因此提出一种归一化互信息形式:
图像灰度配准

2. 基于特征的图像配准方法:

基于特征的图像配准是最常见的方法。对于不同特性的图像,选择图像中容易提取,并能够在一定程度上代表待配准图像相似性的特征作为配准依据。图像的特征点比图像的像素点少很多,可减少匹配过程计算量;特征点匹配的度量值对位置变化较敏感,可提高匹配的精度;特征点提取过程可以减少噪声的影响,对灰度变化、图像变形以及遮挡等都有较好的适应能力。
基于特征的图像配准需要经过预处理、特征提取、特征匹配、图像转换等过程。根据特征选取和特征匹配方法的不同,衍生出多种不同的基于特征的图像配准方法。

1)基于点特征的图像配准方法:

已知P是标准参考图像上的特征点集,Q是待配准图像上的特征点集,配准就是确立两个点集的对应关系。一般是参考图像上选取nxn窗口,有特征点pi;待配准图像上取mxm窗口,目标窗口在搜索窗口滑动,计算相似性度量,确定与pi的同名特征点qi。在基于点特征的图像配准算法中,特征点通常选取的是图像中易于确定的特殊点,比如角点、直线交叉点、T型交汇点、高曲率点,以及特定区域的中心、重心等。
①Moravec算子:
Moravec算子是Moravec提出的利用灰度方差提取点特征的算子,分为几个步骤。
先计算各像元的兴趣值IV。在以像素(m,n)为中心的wxw图像窗中,相邻4个方向像素灰度差的平方和为:
图像特征配准      图像特征配准
图像特征配准      图像特征配准
式中,k=int(w/2)。取其中最小者为该像素的兴趣值。
给定一经验阈值,将兴趣值大于该阈值的点作为候选点,阈值的选择应以候选点中包括所需要的特征点,而又不含过多的非特征点为原则。
选取候选点中的极值点作为特征点。在一定大小的窗口内,将候选点中兴趣值不是最大者去掉,仅留下一个兴趣值最大者,该像素即为一个特征点。
②Forstner算子:
该算子通过计算各像素的Robert's梯度和以像素(m,n)为中心的一个窗口灰度协方差矩阵,在图像中寻找具有尽可能小而接近圆的误差椭圆的点作为特征点。步骤为:
⑴计算各像素的Robert's梯度:
图像特征配准        图像特征配准
⑵计算rxr窗口中灰度的协方差矩阵:
图像特征配准
式中:k=int(r/2)
图像特征配准    图像特征配准
图像特征配准
⑶计算兴趣值q与w:
图像特征配准          图像特征配准
式中,DetN代表矩阵N的行列式;trN代表矩阵N的迹。w为该像素的权。
q即像素(m,n)对应误差圆的圆度:
图像特征配准
式中,a和b为椭圆的长、短半轴。如果a和b中任意一个为零,则q=0,表明该点可能位于边缘上;如果a=b,则q=1,表明为一个圆。
⑷确定候选点:
如果兴趣值大于给定的阈值,则该像元为待选点。阈值为经验值,可参考下列值:
图像特征配准          图像特征配准
式中,Wmean为权平均值,Wc为本权的中值。当q>Tq,且w>Tw时,该像素为待选点。
⑸选取极值点:
以权值w为依据,选择极值点,即在一个适当窗口中选择w最大的待选点,而去掉其余的点。
由于Forstner算子比较复杂,可首先用一个简单的差分算子提取初选点,然后采用Forstner算子在3x3窗口计算兴趣点,并选择备选点,最后提取的极值点为特征点。具体步骤为:
利用差分算子提取初选点,差分算子为计算像素(m,n)上下左右4个方向的灰度差分绝对值:
图像特征配准         图像特征配准 
图像特征配准         图像特征配准
取上述4个值的最小值为M。对于给定的阈值T,如果M>T,则(m,n)为一初选点;否则(m,n)不是特征点。也就是,4个方向的差分绝对值有任意两个大于阈值,则该像素有可能是一个特征点。
在以初选点(m,n)为中心的3x3窗口中,按Forstner算子法计算协方差矩阵N与误差圆的圆度q。
给定阈值Tq,若限制误差椭圆长短半轴之比不得大于2.4~3.2,则Tq=0.32~0.5。若q>Tq,则该像素为一备选点。按以下原则确定其权值:
图像特征配准
以权值为依据,选取一适当窗口中的极值点为特征点,即选取窗口中权最大者为权值点。
Moravec算子和Forstner算子是传统的点特征提取方法,它们对各个像素邻域进行一定的梯度或差分运算,选择其极值点或超过给定阈值的点作为特征点。它们提取的特征点较强地依赖于局部灰度信息,其适应性较差而且计算量较大。
③小波变换算子:
小波变换可以非常有效地用于信号的多分辨率局部分析,已经被成功用于许多图像分析领域。对于图像配准来说,由于两幅图像中共同特征往往是大而强的边缘信息,根据小波变换能够反映图像的阶跃型边缘突变点的性质,可以利用小波变换提取用于图像配准的特征点。
假设图像P具有MxM个像素,在J=log2(M+1)个尺度上对P进行分解,即尺度s=pow(2,j),其中1≤j≤J。构造离散滤波器,在尺度s上,采用二维离散小波变换的快速算法计算每个点(m,n)的离散二进小波变换。点的模值和相角为:
特性特征配准
图像特征配准
模图中的模极大值点就是该点的模大于在相角方向上的两个两个相邻位置上模值的点,模极大值点(m,n)的模值大于门限,则该点被认为是特征点。
基于小波变换的特征点提取算法在实际应用中可以满足配准要求,而且适用性也比较强,但是计算量较大,不利于图像快速配准。

2)基于线特性的图像配准算法:

基于点特征的图像配准算法具有较强的有效性和可靠性,然而当待配准图像和标准图像之间存在较大几何差异时,点特征的提取很困难。基于线的图像配准算法能够有效解决这个问题。
已知P1P2是标准参考图像上的直线特征,P1'P2'是待配准图像上的直线特征。P1P2上的两点为P1(x,y)和P2(x,y);待配准图像上对应直线P1'P2'上的两点为P1'(X1,Y1)和P2'(X2,Y2)。P1'和P2'并不要求与参考图像上的P1和P2匹配,但它们必须在同一条直线段上,并且要大体上匹配。
可以通过以直线为控制基础来建立两图像间的配准方程,只要在两图像上找到足够的直线控制要素,就可以求出变换系数。实际应用中,由于各种因素影响,线段P1P2上的点并不一定落到P1'P2',而是有一定的误差,这个误差可以用变换点到直线段P1'P2'的距离d来表示,如果共有n对线状控制要素,变换模型的最佳形式就是误差函数最小。
线特征的提取是基于线特征的图像配准算法中的关键一步。提取线特征的过程可分为两步,首先抽取反映灰度变化的基板单元--边缘,然后再将这些不连续的边缘片段连接或编组为有意义的线状特征,前者称为边缘检测,后者为边缘连接。常用的边缘检测方法有Roberts算子、Kirsch算子、Sobel算子、Prewitt算子、Canny算子等;边缘连接算法可分为局部边缘连接算法和全局边缘连接算法。
①局部边缘连接算法:
链码描述子是一种典型的局部边缘连接算法,它在一个局部区域内进行连接操作,包括标注和连接两步。链码也称Freeman码,实际上是一串方向符号的序列。在数字图像中,图像的边缘点实际上是一些离散的像素点,除图像边界上的点外,所有的像素点都有8个相邻的点与之相连。如果将这8个点的连接方向用方向符号来代替,再沿边缘方向依次记录每两点间的连接方向,就可得到边缘轮廓的方向链码。
假定轮廓α和β分别是从图像f1(x,y)和f2(x,y)提取出来的轮廓,可以使用两个长为Nα和Nβ的链码序列{ai}和{bi}表示,那么轮廓α上从第p点开始的n点序列与轮廓β上从q点序列之间的相关为:
图像图像配准
式中:0≤i≤n
图像特征配准  图像特征配准
其中取模是考虑到存在闭合轮廓情况,余弦函数可以确保相关值小于等于1,而相关值等于1意味着完全匹配。
为了找到两条轮廓ɑ和β的最匹配位置,将轮廓ɑ上从第k点开始,长度为n的一段在另一条轮廓β上滑动,其最大相关值由下式确定:
图像特征配准
式中,M为整个滑动范围。对于一对闭合的轮廓,滑动的范围就包括整个轮廓而其取p=0,n=Nα,M包含轮廓β上的所有点,上式可以写为:
图像特征配准
实现中,对于长度不同闭合轮廓的相关,可以使用线性插值的方法将长轮廓加以重采样,使其长度与短轮廓的点数相同。轮廓α和β的相关值若满足以下两个条件,它们就是所要得到的最匹配的轮廓对:
·图像特征配准,这里β'包括f2(x,y)中所有与轮廓形状相似的轮廓
·图像特征配准,这里T是一个预设阈值,主要是除去相关性很弱的结果,以免误匹配
关于多条轮廓同时对应与另一图像上同一轮廓的情况很少会出现,此时就取具有最大值的那一对。最后,将得到的闭合轮廓对的中心点作匹配,就可以得到匹配点对。
②全局边缘连接算法:
Hough变换是最常用的全局边缘连接算法,它能够将边缘检测算子抽取出的图像边缘像素连接起来组成区域封闭的边界,主要优点是对局部缺损不敏感,受噪声影响小。
Hough变换的基本思想是点-线的对偶性。图像变换前在图像空间,变换后在参数空间,将笛卡尔坐标系中的线变换成斜率-截距坐标空间中的点,或极坐标中的点,即原始图像中给定性质的曲线或直线上的所有点都集中到参数空间的某个点上形成峰值。这样,就把原始图像中给定形状的曲线或直线的检测问题,变成了寻找参数空间中的峰值问题,也即把检测整体特性变成检测局部特性的问题。
图像空间中共线的点对应在参数空间里相交的线;参数空间中相交于同一个点的所有直线在图像空间里都有共线的点与之对应,这就是点-线的对偶性。根据点-线对偶性,若给定图像空间的一些边缘点,就可以通过Hough变换确定连接这些点的直线方程。Hough变换把图像空间中的直线检测问题转换到参数空间中对点的检测问题,通过在参数空间中进行简单的累加统计完成检测任务。
具体计算时,需要在参数空间PQ中建立一个二维的累加数组A(p,q),其中(pmin,pmax)和(qmin,qmax)分别为预期的斜率和截距的取值范围。开始时,置数组A为零,然后对每一个图像空间中的给定边缘点,让p取遍P轴上所有可能的值,并根据q=-px+y计算对应的q;再根据取整的p和q的值对A进行累加;累加结束后,根据A(p,q)的值就可以知道有多少点是共线的,即A(p,q)的值就是在(p,q)处共线点的个数,同时(p,q)的值也给出了直线方程的参数,即给出了点所在的线。

3. 基于优化策略的图像配准算法:

图像配准实际上是一个多参数最优化问题,通过不断改变几何变换参数使相似性测度达到最优。但是,整个确定最优变换参数的过程计算量很大,为了找到参考图像上的一点在待配准上的同名点,现有的方法必须遍历搜索区域内的每一个点。为了减少总的计算量,加快搜索速度,需要采用一点的优化算法。

1)幅度排序相关搜索算法:

这种算法由两个步骤组成:
⑴把待配准图像中的各个灰度值按幅度大小排成列的形式,然后再对它进行二进制编码,根据二进制编码排序的结果把实时图变成二进制阵列的一个有序的集合。
⑵将这些二进制阵列与参考图像进行由粗到细的相关,直到确定出匹配点为止。
例如对3x3待配准图像,首先把3x3实时图中各个灰度值按大小次序排成一列,并计算出各个灰度值在图像中的位置(j,k);然后将排序好的灰度幅值分成数目相等的两组,且幅度大的一组赋值1,而幅度小的赋值0。若幅度数为奇数,则中间的那个幅度就规定为X。进一步,把每一组分成两半,并同样地赋1值和0值,这个过程一直进行到各组划分为一个单元为止,并由此形成二进制排序。
于是,根据二进制排序的次序和各个二进制值及其位置,便可构成C1、C2、C3等二进制阵列。同理,对于一般情况可得Cn。
用C1阵列与基准图像阵列作相关运算:
优化策略图像配准
意味着,当C1阵列放在基准图的某一搜索位置(u,v)上时,与C1中的1值对于的基准图像的像素值之和减去与C1中的0值所对应的基准图像的像素值之和,C1中X对应的基准图像的像素值忽略。获得的φ(u,v)称为相关面,实际上是一种比特量化实时图与标准图像的积相关函数,它反映了实时图中最粗糙的图像结构的信息与标准图像的相关。
在标准图像全区域的搜索过程中,若设定一个门限值T1,并舍弃那些小于T的试验点,可以减少下一轮搜索时的试验位置数。
在上述基础上,在进行细的相关运算:
优化策略图像配准
同理,再设置门限值T2,在C2基础上进行更细的相关运算;依次类推,可得到第n个相关:
优化策略图像配准
当设门限值Tn时,若得到大于门限的位置只有一个,该位置就是匹配点。当然,各门限值顺序为Tn>Tn-1>...>T2>T1。因此,细化的试验位置越来越少,直到找到匹配位置,从而减少了总的计算量,提高了处理速度。

2)分层搜索算法:

⑴对图像进行分层预处理:
对于任意一幅图像,通过每nxn个像素加权平均为一个新的像素构成第二级图像,再在第二级图像的基础上构成第三级图像,持续下去可以构成一系列的序列。对于具体分层层数的选取,要根据模板图像和待配准图像的大小以及n的大小而定。一般情况下,n≤5。
⑵由粗到细的匹配过程:
首先,从最低分辨率的图层开始搜索。为了找到可能的粗匹配位置,应将S和T的所有搜索位置上进行相关,确定粗匹配的位置。由于低分辨率维数最小,所以搜索过程很快,但分辨率低,可能会出现多个粗匹配位置。第二次搜索在下一级分辨率上对应的一个或若干个粗匹配位置附近进行,可得到一个或少数几个可能性,依次类推,直到最大分辨率层为止。

3)智能搜索算法:

为了进一步提高配准速度,有必要探索一些高效的快速寻优算法。
①遗传算法:
遗传算法GA是模拟生物在自然环境中遗传和进化过程而形成的一种自适应全局优化概率搜索算法。在遗传算法中,操作对象为群体中的所有个体,通过对所求问题的解空间进行编码而得到,对个体的操作主要有选择、交叉和变异三种。选择操作按照个体的适应度,以一定准则,从当代群体中选择一定数量的个体作为父代;交叉操作对经过选择所得的父代进行随机配对;以一定概率交换部分遗传信息的变异操作是按位进行的,它以一定的概率随机改变个体的每个编码位。可见,遗传算法求解问题的实质就是一个迭代搜索的过程,其重点在于适应规划和适应度量。利用遗传算法进行图像配准涉及5个关键问题:
⑴编码:
假定编码T的尺寸为KxL,搜索图像尺寸为MxN。将T叠放在搜索图像上平移,模板覆盖下的那块搜索子图像为S(i,j),(i,j)为这块子图像的左上角在搜索图像中的坐标,因此可以选取配准时的位置(i,j)作为编码图像进行编码。
⑵选择适应度函数:
适应度是遗传算法中个体进化的驱动力,是进行自然选择的唯一依据。个体质量的优劣完全由它的适应度高低来评价。适应度高,则个体质量越好,其生存机会就越大;反之,适应度低,个体质量越差,其生存机会就越小,而被淘汰的机会就会增加。
图像配置中,采用如下的适应度函数:
优化策略图像配准       优化策略图像配准
式中:
优化策略图像配准
从适应度函数看,目标窗口与配准窗口内各自灰度值的平均绝对值差越小,则适应度越高,配准精度越高。
⑶遗传算子:
在遗传算子中,个体的进化是在遗传算子的作用下完成的。常用的遗传算子有选择、交叉和变异。对于选择算子,用的比较多的是比例选择,各个个体被选中的概率与其适应度大小成正比,具体为:找出群体中适应度最高的个体(i,j),通过领域寻优的办法,即在(i,j)周围搜索4个点(i-1,j)、(i,j-1)、(i+1,j)、(i,j+1)或更多的点,再在这4个点或更多个点中找出适应度最大的个体,不进行配对交叉而直接复制到下一代;根据任一个体的适应度在整个群体的个体适应度总和中所占的比例确定选择概率进行选择来产生中间群体,以供后面的个群体的个体适应度总和中所占的比例确定选择概率进行选择来产生中间群体,以供后面的交叉、变异操作。最佳保留策略保证了当前代中的最佳个体总是生成到下一代,这样可以防止最佳个体在进化过程中的无意义流失,其他个体则根据其适应度的大小,具有相对应的被选中的概率。
对于交叉算子采用均匀交叉策略,该策略可在群体数量和遗传代数均较小的情况下拓宽搜索空间、提高算法的搜索能力,方法是:首先随机产生一个与父代等长的交叉操作模板,然后依概率随机选取的一对父代染色体,根据模板的等位基因是1还是0来决定它们是交换还是不交换。需要注意,每选择一对父代就要重新随机产生一个模板。
变异算子,在本算法中,常采用比例翻转策略,即依变异概率随机将染色体的某位基因进行比例翻转,即1变为0,而0变为1。
⑷确定控制参数和终止:
遗传算法的操作是依设定的控制参数来进行的。常用的控制参数有个体编码串长度l、群体大小M、交叉概率p、变异概率pm、终止参数T等。由于遗传算法在后期的收敛速度很慢,为了停止遗传算法的运算,除预先设置最大遗传代数外,还有一个常用的终止准则,即如果进化到一定代数后,各代中的最佳个体依然没有变化,则停止运算。
⑸初始化群体:
按照一定的要求首先获取一定数量的种子,然后从这种种子中依其适应度的优劣挑选规定数量的初始群体。这样做的目的是用较少的个体和遗传代数,尽可能快地找到准最优解。确定种子的步骤为:
·将搜索图像分成若干子区
·分别在每一个子区中随机选择若干坐标点,并要求总点数不少于设定的群体大小
·以适应度函数评价每个种子的适应度
·从所有种子中选择适应度最好的种子作为初始群体的个体,其数量为设定的群体大小
综上所述,遗传算法用于图像配准的流程为:先选取一定数量的个体作为初始群体,并计算它们的适应度,接着运用遗传算子对其进行复制、交换、变异等操作,从而得出下一代群体,继续重复上述步骤,直到得到最优解或满足终止条件。
②粒子群搜索算法:
粒子群优化算法源于对鸟群捕食的行为研究,基本思想是:每个优化问题的解都可以被想象成d维空间的一个点,称为粒子。每个粒子通过迭代搜寻,在解空间追随两个最优的粒子来更新自己,一个是粒子迄今为止寻找到的最优值,称个体极值pbest;另一个是整个粒子群迄今为止寻找到的最优值,称全局极值点gbest。搜索这两个最优值后,粒子通过如下两个公式更新自己,直到找到食物位置。
优化策略图像配准    优化策略图像配准
式中,vi为当前代的粒子移动速度;vi-1为前一代的粒子移动速度;r1和r2为0~1间的随机数;c1和c2为学习因子;w为惯性权重因子;pbest和gbest为个体极值点和全局极值点。
假设x是参考图像,y是待配准图像,点xi为图像x中的系列控制点,点的个数我N,点yi为图像y中的系列控制点,点的个数为M,R为欧式空间3个轴向上的旋转变换,T为3个轴上的平移变换,则特征点配准采用的目标函数为:
优化策略图像配准
对比遗传算法,粒子群搜索算法计算简单、搜索速度快。粒子群算法用于图像配准过程为:
⑴由旋转角度α、x方向平移分量Tx、y方向平移分量Ty构成解空间
⑵初始化粒子个数、学习因子c1和c2、惯性权重因子w,并随机分配每个粒子在解空间的位置
⑶进行一次迭代,计算每个粒子的vi、xi
⑷若迭代过程得到的解小于最小允许误差ε,或者迭代步数超过最大允许次数,则结束迭代,此时的解即为最终要求的解,否则转上一步
⑸利用双线性插值求出图像空间变换后每个像素的灰度值,得到配准后的图像

4. 图像识别原理:

图像识别就是把研究对象根据某些特征进行识别并分类,过程大致分为信息获取、预处理、特性提取、决策判决4个主要部分。一般有统计图像识别、模糊图像识别和神经网络图像识别3种代表性的方法。

1)统计识别方法:

统计识别方法基本思想是将特征提取阶段得到的特征向量定义在一个特征空间中,这个空间包含了所有的特征向量,不同的特征向量都对应于此空间中的一个点。在分类阶段,利用统计决策原理对特征空间进行划分,从而达到识别不同特征对象的目的。支持向量机是近年最常用的统计识别方法之一。
支持向量机(SVM:Support Vector Machines)是一种新的学习机器,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。此方法通过构造最优超平面,使得对未知样本的分类误差最小。根据结构风险最小化归纳原则,为了最小化期望风险的上界,SVM通过最优超平面的构造,在固定学习机经验风险的条件下最小化VC置信度。
最优超平面构造问题实质上是在约束条件下求解一个二次规划问题,以得到最优分类函数:
图像识别
式中,k(xi,x)是一个核函数,sgn为符号函数,L为训练样本数目。
在该分类函数中,某些xi对应的αi为0,某些不为0。由于这些具有非零值的αi对应的向量支撑了最优分类平面,因此称为支撑向量。
目前,常用的核函数主要有3类:
·多项式形式的核函数:图像识别,q为多项式的阶数
·径向基形式的核函数:图像识别
·Sigmoid形式的核函数:图像识别
选择不同的核函数,就可以得到不同的支持向量。
SVM方法本质上是一种二分类方法,而大部分的图像识别问题都是多分类问题。因此,SVM方法具有很大局限性,需要寻求一种多分类SVM方法,才能使SVM方法真正具有实用价值。目前应用较多的是所谓One-against-One方法和One-against-Rest方法,这两种方法都是通过构造多个SVM二值分类器来达到多分类的目的。
假设样本集中包含k个类别,对于One-against-One方法,其思想是将k个类别中的任意两个样本组合在一起构成一个SVM,从而总共需要建立k(k-1)/2个SVM二值分类器,实现过程中需要求解k(k-1)/2个二次规划。对于One-against-Rest方法,其思想是将这k个类别中的任意l类与其他k-1类样本组合构成一个SVM,这样就需要建立k个SVM二值分类器,实现过程中需要求解k个二次规划。

2)模糊识别方法:

模糊分类法是建立在模糊集合论和模糊逻辑基础上的,模糊集合中,元素x和集合A的从属关系不是简单的是与非的二值关系,而是用一个隶属关系函数来表示。利用模糊集合理论进行图像识别可以归纳为两种方法,模糊化特征法和模糊化结果法。
①模糊化特征法:
模糊化特征法是指根据移动的模糊化规则,把原来的一个或几个特征变量分成多个模糊变量,使每一个模糊变量表达原特征的某一局部特性,用这些新的模糊特征代替原来的特征进行识别。每个模糊特征的取值实际上是一个新的连续变量,比如将人的体型分为偏瘦、中等、偏胖,特征就变成关于一个人的体型的描述,分别属于偏瘦、中等、偏胖的程度,这些做法称为1 of N编码。
很多情况下,用一个特征参与分类,正确分类结果与这个特征之间可能是复杂的非线性关系,如果根源有关知识适当地提取模糊特征,虽然特征数增多了,但可能使分类结果和特征之间的关系线性化,从而简化后面的分类器设计和提高分类器性能。如果对所提取特征与要研究的分类问题之间的关系有一定的先验认识,采用这种方法往往能取得很好的结果。
②模糊化结果法:
模式识别中的分类就是把样本集分成若干子集,可以使用模糊子集的概念代替确定子集,从而得到模糊的分类结果,或者说使分类模糊化。
在模糊化的分类结果中,一个样本将不再属于每个确定的类别,而是以不同的程度属于各个类别,这个方法有2个优点:
·在分类结果中可以反映出分类过程的不确定性,有利于用户根据结果进行判决
·如果分类是多级的,模糊化的分类结果通常更有利于下一级分类,模糊化分类结果比明确的分类结果包含更多的信息

3)神经网络分类方法:

神经网络分类技术是一种全新的图像识别技术,利用人在以往识别图像时所积累的经验,在被分类图像的信息引导下,通过自学习,修改自身的结构及识别方式,从而提高图像的分类精度和分类速度。
BP神经网络是广泛应用于图像分类中的一种神经网络模型,这是一种多层前馈型神经网络,由输入层、隐层和输出层组成,层与层之间采用全互连方式,同一层的单元之间不存在相互连接,隐层可以有一个或多个。
已经证明,一个三层的BP网络可以完成任意的n维到m维的映射。隐层中的神经元均采用S型变换函数,输出层的神经元可采用S型函数,此时输出被限制在一个很小的范围内;也可以采用线性变换函数,此时网络输出则可在一个很大的范围内变化。
利用BP神经网络进行图像识别可分为训练学习阶段和识别阶段。训练学习阶段的主要工作是将训练样本输入网络,通过有指导或无指导学习方式,寻找一组合适的网络连接权值,确定出适当的网络连接模式。识别阶段则是利用已训练好的网络进行分类,最终识别结果就是对神经网络的输出做出判决。
这里可以采用编码的方式,即通过对神经网络输出层各节点输出的0和1,组合判断输入图像的属性;也可以采用最大/最小准则,即神经网络输出层中输出最大/最小的节点对应的图像属性为属于图像的属性。

 

Copyright@dwenzhao.cn All Rights Reserved   备案号:粤ICP备15026949号
联系邮箱:dwenzhao@163.com  QQ:1608288659