您的当前位置:首页正文

增强现实系统中基于机器学习的自然特征点识别方法[发明专利]

2022-05-08 来源:易榕旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 105488541 A (43)申请公布日 2016.04.13

(21)申请号 201510956768.0(22)申请日 2015.12.17

(71)申请人上海电机学院

地址200240 上海市闵行区江川路690号(72)发明人赵孟德 张斌

(74)专利代理机构上海思微知识产权代理事务

所(普通合伙) 31237

代理人菅秀君(51)Int.Cl.

G06K 9/62(2006.01)

权利要求书3页 说明书7页 附图1页

(54)发明名称

增强现实系统中基于机器学习的自然特征点识别方法(57)摘要

本发明提供了一种增强现实系统中基于机器学习的自然特征点识别方法,包括:选取一幅平面物体的正面影像作为目标图像;利用透视变换来模拟组合观察条件下的目标图像,以合成样本图像;收集合成的样本图像中特征点和特征向量作为机器学习的训练样本;通过机器学习对目标图像的自然特征点的特征向量进行建模;根据建模结果将目标图像中的多个自然特征点作为相应数量的不同的类别,分别判断场景图像中的每个特征点是否属于任一类别。

C N 1 0 5 4 8 8 5 4 1 ACN 105488541 A

权 利 要 求 书

1/3页

1.一种增强现实系统中基于机器学习的自然特征点识别方法,其特征在于包括:第一步骤:选取一幅平面物体的正面影像作为目标图像;

利用透视变换来模拟组合观察条件下的目标图像,以合成样本图像;第二步骤:

第三步骤:收集合成的样本图像中特征点和特征向量作为机器学习的训练样本;第四步骤:通过机器学习对目标图像的自然特征点的特征向量进行建模;第五步骤:根据建模结果将目标图像中的多个自然特征点作为相应数量的不同的类别,分别判断场景图像中的每个特征点是否属于任一类别。

2.根据权利要求1所述的方法,其特征在于,组合观察条件包括角度和/或距离和/或光照。

3.根据权利要求1或2所述的方法,其特征在于,在第二步骤包括:将目标图像局部坐标到成像平面的投影的透视变换矩阵表示为:

其中,C为相机内部参数,M为外部参数矩阵,R为旋转矩阵,其采用三维图形学和机器人运动学中的欧拉角表示为R=Ryaw、Rpitch、Rroll;T=[Tx Ty Tz]为平移向量;其中Ryaw、Rpitch确定了相机和目标图像平面法线之间的夹角,Rroll表示了目标图像在成像平面内的旋转,Tz进行表示目标与相机光心的垂直距离,其作为尺度因子,Tx表示相机和目标图像平面的水平横向距离,Ty表示相机和目标图像平面的水平纵向距离;当相机内部参数C不变时,通过外部参数Ryaw、Rpitch、Rroll、Tx、Ty、Tz进行均匀的采样,以模拟对目标图像在不同的角度、距离、光照及其组合下的观察图像作为合成图像。

4.根据权利要求1或2所述的方法,其特征在于,第三步骤中的收集合成的样本图像中特征点和特征向量作为机器学习的训练样本包括针对每个样本图像执行下述步骤:

计算目标图像I的特征点K及其特征向量D;更新透视变换矩阵P(t);

根据透视变换矩阵P(t)合成样本图像I(t)=P(t)*I;

计算样本图像I(t)的特征点K(t)及其相应的特征向量D(t);根据几何约束K(t)=P(t)*K+μ进行匹配特征点,其中μ为特征提取算法引入的误差,其中“*”表示乘法符号;

将匹配的特征点加入训练样本数据集。5.根据权利要求1或2所述的方法,其特征在于,在第三步骤还包括进一步对训练样本进行筛选处理;所述筛选处理包括采用自相关检测特征点的独特性,以从样本图像的特征点中排除样本图像中的相似或重复子区域的相似特征点。

6.根据权利要求5所述的方法,其特征在于,所述筛选处理包括:令I0=I为目标图像,It=ptI为第t幅样本图像,pt为透视变换矩阵,Kt,i,Lt,i,Dt,i,Nt分别为样本图像It的特征点、特征点坐标、特征向量和特征点数目,i,j为特征点序号;当t=0时,p0=E为单位矩阵,I0=I,特征点的自相关检测计算任意两个特征点的特征向量距离Ui,j=|D0,i-D0,j|,i,j∈0,1,2...N0;当时Ui,j<ε时,拒绝第i,j个特征点序号作为类别标签,同时拒绝该特征点K0,i以及拒绝特征点K0,其中,N0表示特征点的数目,ε为特征i在训练图像上的匹配点作为训练样本,

2

CN 105488541 A

权 利 要 求 书

2/3页

向量距离阈值;该自相关检测的特征点集合表示为SetK=;从特征点集合通过筛选选取特征向量间距较大的预定数量的特征点作为训练样本数据集。

7.根据权利要求1或2所述的方法,其特征在于,在第三步骤还包括检测特征点的可重现性;

其中,计算特征点K0,i在样本图像It中的可重现性公式

式中ε、μ为特征提取算法引入的误差,Dt,j为第t幅样本图像的特征向量,D0,i为投影特征点的向量,dist(Dt,j,D0,i)为Dt,j与D0,i的距离,Lt,j表示第t幅样本图像的特征点坐标,L0,i为投影特征点坐标,|Lt,j-ptL0,i|表示样本图像与投影的特征点的距离;当特征点K0,i满足

时,保留特征点K0,i及其匹配点作为训练样本;当特征点K0,i不满足

时,将特征点K0,i从训练样本集合中排除;其中T为样本图像的总数,ω为可重现性系数。

8.根据权利要求1或2所述的方法,其特征在于,在第三步骤还包括利用高斯混合模型排除误匹配;

其中,通过统计特征点Ki的特征向量集合合

作为高斯混合分布模型

将目标图像上的N个特征点的特征向量集

式中,D表示向量集合,ak,Sk,π协方差矩阵、每个单高斯模型在混k分别表示均值矩阵、合模型中占的比例,πk≥0,

φ(D;akSk)表示数据的概率分布密度函数,d为特征

向量的维数,将中的特征向量作为核密度估计的采样点,通过期望值最大化公式估计参数θ:

L(D,θ)表示期望值或均值;根据高斯混合模型,得到特征点K与Ki匹配的概率表示如下:

3

CN 105488541 A

权 利 要 求 书

3/3页

以上述概率公式作为判断特征匹配是否正确的依据,当时,若

则认为特征点K不符合Ki的分布模型,此时,将K从训练样本中排除。

4

CN 105488541 A

说 明 书

1/7页

增强现实系统中基于机器学习的自然特征点识别方法

技术领域

[0001]本发明涉及一种增强现实系统中基于机器学习的自然特征点识别方法。背景技术

[0002]近年来随着计算机视觉、光学、显示等技术的飞速发展,为增强现实技术的发展提供了强有力的技术支撑,然而作为增强现实系统关键技术之一的三维注册技术,一直没有飞跃性突破,注册精度不够高一直制约着增强现实技术应用于室外系统的开发应用,可以说三维注册直接关系到一个增强现实系统的成功与否,因而对增强现实中的三维注册算法研究也就有着极为重要的现实和深远意义。

[0003]现有技术中提出了一种基于自然特征的注册方法。在初始化阶段,取两幅不同视角的图像作为参考帧,匹配参考帧的角点特征,并使用基于标记的方法进行精确标定。在实时阶段,通过当前帧与前一帧的比较解决了特征点的宽基线匹配问题,并以二视图算法计算出当前帧和参考帧之间的基础变换矩阵。然后以这些初始的运动估计作为非线性优化的起点,以特征点位置的二视图及三视图约束偏差作为代价函数,最小化此代价函数来估计相机的位置,最后以类似卡尔曼滤波的方法来使得计算更加稳定。[0004]现有技术中还提出了基于纹理的注册方法。该方法也是利用标记进行跟踪初始化,并需要事先分析被跟踪的物体,提取基于纹理的特征作为匹配模板,其余过程与基于标识的方法基本一致。

[0005]现有技术中又提出了基于投影重建的自然特征跟踪技术。该方法主要由两步构成:嵌入和渲染。其中嵌入包括指定4个点来建立虚拟物体所在的世界坐标系。渲染时使用Kanade-Lucas-Tomasi(简称KLT)特征检测子来追踪实时视频中对应的自然特征。这些特征被归一化并作为输入来估计投影矩阵。该方法无需事先定义的基准标识并且能应用于室外AR系统。人们在典型的AR应用中使用了目前领先的特征描述符Sift的一个简化的Fern分类方法。其中以事先已知的平面纹理物体作为跟踪目标,建立了训练数据集,直接利用当前的手机上内置的摄像进行头视频捕捉,实现了6自由度频率为20Hz的实时跟踪。[0006]但是,上述现有技术的方法一般匹配正确率不高,或者处理复杂而导致特征匹配较慢。

发明内容

[0007]本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种增强现实中基于机器学习的自然特征点识别方法,以达到初始匹配点较少、匹配正确率较高、有利于目标图像的精确跟踪和注册的目的。[0008]为了实现上述技术目的,根据本发明,提供了一种增强现实系统中基于机器学习的自然特征点识别方法,包括:[0009]第一步骤:选取一幅平面物体的正面影像作为目标图像;[0010]第二步骤:利用透视变换来模拟组合观察条件下的目标图像,以合成样本图像;

5

CN 105488541 A[0011]

说 明 书

2/7页

第三步骤:收集合成的样本图像中特征点和特征向量作为机器学习的训练样本;

[0012]第四步骤:通过机器学习对目标图像的自然特征点的特征向量进行建模;[0013]第五步骤:根据建模结果将目标图像中的多个自然特征点作为相应数量的不同的类别,分别判断场景图像中的每个特征点是否属于任一类别。[0014]优选地,所述组合观察条件包括角度和/或距离和/或光照。[0015]优选地,第二步骤包括:

[0016]将目标图像局部坐标到成像平面的投影的透视变换矩阵表示为:

[0017][0018]

p=CM,

其中,C为相机内部参数,M为外部参数矩阵,R为旋转矩阵,其采用三维图形学和机

器人运动学中的欧拉角表示为R=Ryaw、Rpitch、Rroll;T=[TxTyTz]为平移向量;其中Ryaw、Rpitch确定了相机和目标图像平面法线之间的夹角,Rroll表示了目标图像在成像平面内的旋转,Tz进行表示目标与相机光心的垂直距离,其作为尺度因子,Tx表示相机和目标图像平面的水平横向距离,Ty表示相机和目标图像平面的水平纵向距离;当相机内部参数C不变时,通过外部参数Ryaw、Rpitch、Rroll、Tx、Ty、Tz进行均匀的采样,以模拟对目标图像在不同的角度、距离、光照及其组合下的观察图像作为合成图像。[0019]优选地,第三步骤中的收集合成的样本图像中特征点和特征向量作为机器学习的训练样本包括针对每个样本图像执行下述步骤:[0020]计算目标图像I的特征点K及其特征向量D;[0021]更新透视变换矩阵P(t);

[0022]根据透视变换矩阵P(t)合成样本图像I(t)=P(t)*I;

[0023]计算样本图像I(t)的特征点K(t)及其相应的特征向量D(t);[0024]根据几何约束K(t)=P(t)*K+μ进行匹配特征点,其中μ为特征提取算法引入的误差,其中“*”表示乘法符号;

[0025]将匹配的特征点加入训练样本数据集。[0026]优选地,在第三步骤还包括进一步对训练样本进行筛选处理;所述筛选处理包括采用自相关检测特征点的独特性,以从样本图像的特征点中排除样本图像中的相似或重复子区域的相似特征点。[0027]优选地,It=ptI为第t幅样本图像,pt为所述筛选处理包括:令I0=I为目标图像,透视变换矩阵,Kt,i,Lt,i,Dt,i,Nt分别为样本图像It的特征点、特征点坐标、特征向量和特征点数目,i,j为特征点序号;当t=0时,p0=E为单位矩阵,I0=I,特征点的自相关检测计算任意两个特征点的特征向量距离Ui,j=|D0,i-D0,j|,i,j∈0,1,2...N0;当时Ui,j<ε时,拒绝第i,j个特征点序号作为类别标签,同时拒绝该特征点K0,i以及拒绝特征点K0,i在训练图像上的匹配点作为训练样本,其中,N0表示特征点的数目,ε为特征向量距离阈值;该自相关检测的特征点集合表示为SetK=ε,i,j∈0,1,2...N0,i≠j>;从特征点集合通过筛选选取特征向量间距较大的预定数量的特征点作为训练样本数据集。[0028]优选地,在第三步骤还包括检测特征点的可重现性;[0029]其中,计算特征点K0,i在样本图像It中的可重现性公式

6

CN 105488541 A[0030][0031]

说 明 书

3/7页

式中ε、μ为特征提取算法引入的误差,Dt,j为第t幅样本图像的特征向量,D0,i为投

影特征点的向量,dist(Dt,j,D0,i)为Dt,j与D0,i的距离,Lt,j表示第t幅样本图像的特征点坐标,L0,i为投影特征点坐标,|Lt,j-ptL0,i|表示样本图像与投影的特征点的距离;当特征点

时,保留特征点K0,i及其匹配点作为训练样本;当特征点K0,i不满足

时,将特征点K0,i从训练样本集合中排除;其中T为样本图像的总数,ω为可重现

K0,i满足

性系数。

[0032]优选地,在第三步骤还包括利用高斯混合模型排除误匹配;

[0033]

其中,通过统计特征点Ki的特征向量集合

作为高斯混合分布模型

将目标图像上的N个特征点的特征向

量集合

[0034]

[0035][0036]

式中,D表示向量集合,ak,Sk,π协方差矩阵、每个单高斯模型k分别表示均值矩阵、

φ(D;akSk)表示数据的概率分布密度函数,d为

在混合模型中占的比例,πk≥0,

特征向量的维数,将中的特征向量作为核密度估计的采样点,通过期望值最大化公式估计参数θ:

[0037]

[0038][0039][0040]

L(D,θ)表示期望值或均值;

根据高斯混合模型,得到特征点K与Ki匹配的概率表示如下:

[0041]

[0042]以上述概率公式作为判断特征匹配是否正确的依据,当时,若

则认为特征点K不符合Ki的分布模型,此时,将K从训练样本中排除。

7

CN 105488541 A[0043]

说 明 书

4/7页

与现有技术相比,本发明采用了大量的样本为每个目标图像的特征点建立数学模

型。根据选择合适的特征使得同一类别中的样本特征向量具有某种不变性是构造有效分类器的原则,本发明将特征向量间的一一映射关系转化为模式识别中的分类问题,在保证正确率的前提下进一步提高了特征匹配的速度,并在此基础上实现了对平面目标的实时跟踪和位姿估计。

[0044]在特征向量匹配阶段,本发明将特征点特征向量的匹配作为分类问题,提出了基于机器学习的特征匹配方法,将特征向量间的一一映射关系转化为模式识别中的分类问题,替代了特征向量的最近邻匹配,从而将计算负担从实时阶段转移到训练阶段。实验表明本发明的方法相对于传统的KD树和BBF方法具有特征识别准确、鲁棒性高的优点。附图说明

[0045]结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:

[0046]图1示意性地示出了根据本发明优选实施例的增强现实系统中基于机器学习的自然特征点识别方法的流程图。[0047]需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。

具体实施方式

[0048]为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。

[0049]图1示意性地示出了根据本发明优选实施例的增强现实系统中基于机器学习的自然特征点识别方法的流程图。[0050]如图1所示,根据本发明优选实施例的增强现实系统中基于机器学习的自然特征点识别方法包括在增强现实系统中执行下述步骤:[0051]第一步骤S1:选取一幅平面物体的正面影像作为目标图像;[0052]第二步骤S2:利用透视变换来模拟组合观察条件下的目标图像,以合成样本图像;其中,组合观察条件包括角度和/或距离和/或光照。[0053]具体地,在第二步骤S2中,目标图像局部坐标到成像平面的投影的透视变换矩阵可表示为:

[0054][0055]

p=CM,

其中,C为相机内部参数,M为外部参数矩阵,R为旋转矩阵,其采用三维图形学和机

器人运动学中的欧拉角表示为R=Ryaw、Rpitch、Rroll;T=[Tx Ty Tz]为平移向量;其中Ryaw、Rpitch确定了相机和目标图像平面法线之间的夹角,Rroll表示了目标图像在成像平面内的旋转,Tz进行表示目标与相机光心的垂直距离,其作为尺度因子,Tx表示相机和目标图像平面的水平横向距离,Ty表示相机和目标图像平面的水平纵向距离;当相机内部参数C不变时,通过外部参数Ryaw、Rpitch、Rroll、Tx、Ty、Tz进行均匀的采样,以模拟对目标图像在不同的角度、距离、光照及其组合下的观察图像作为合成图像。

8

CN 105488541 A[0056]

说 明 书

5/7页

第三步骤S3:收集合成的样本图像中特征点和特征向量作为机器学习的训练样

本;

具体地,例如,第三步骤S3中的收集合成的样本图像中特征点和特征向量作为机

器学习的训练样本可包括针对每个样本图像执行下述步骤:[0058]计算目标图像I的特征点K及其特征向量D;[0059]更新透视变换矩阵P(t);

[0060]根据透视变换矩阵P(t)合成样本图像I(t)=P(t)*I;

[0061]计算样本图像I(t)的特征点K(t)及其相应的特征向量D(t);[0062]根据几何约束K(t)=P(t)*K+μ进行匹配特征点,其中μ为特征提取算法引入的误差,其中“*”表示乘法符号;

[0063]将匹配的特征点加入训练样本数据集。[0064]优选地,在第三步骤S3还包括进一步对训练样本进行筛选处理。所述筛选处理包括采用自相关检测特征点的独特性,以从样本图像的特征点中排除样本图像中的相似或重复子区域的相似特征点,以提高分类器的正确率。[0065]例如,令I0=I为原目标图像,It=ptI为第t幅样本图像,pt为透视变换矩阵,Kt,i,Lt,i,Dt,i,Nt分别为样本图像It的特征点,特征点坐标,特征向量和特征点数目,i,j为特征点序号;当t=0时,p0=E为单位矩阵,I0=I,特征点的自相关检测计算任意两个特征点的特征向量距离Ui,j=|D0,i-D0,j|,i,j∈0,1,2...N0;当时Ui,j<ε时,拒绝第i,j个特征点序号作为类别标签,同时拒绝该特征点K0,i以及拒绝特征点K0,i在训练图像上的匹配点作为训练样本,其中,N0表示特征点的数目,ε为特征向量距离阈值;该自相关检测的特征点集合表示为SetK=ε,i,j∈0,1,2...N0,i≠j>;通过该特征点集合选取特征向量间距较大的特征点,这样可以排除相似特征点以提高分类器的正确率(例如,从特征点集合通过筛选选取特征向量间距较大的预定数量的特征点,作为训练样本数据集)。[0066]此外,优选地,在第三步骤S3还包括检测特征点的可重现性。[0067]具体地,计算特征点K0,i在样本图像It中的可重现性公式

[0068][0069][0057]

式中ε,μ为特征提取算法引入的误差,Dt,j为第t幅样本图像的特征向量,D0,i为投影特征点的向量,dist(Dt,j,D0,i)为Dt,j与D0,i的距离,Lt,j表示第t幅样本图像的特征点坐标,L0,i为投影特征点坐标,|Lt,j-ptL0,i|表示样本图像与投影的特征点的距离;当特征点

时,认为特征点K0,i具有较高的可重现性,保留特征点K0,i及其匹配点作

K0,i满足

为训练样本;反之,将较低的可重现性的特征点从训练样本集合中排除;其中T为样本图像的总数,ω为可重现性系数。[0070]优选地,在第三步骤S3还包括利用高斯混合模型排除误匹配,具体地,:

[0071]

通过统计特征点Ki的特征向量集合将目标图像上的N个特征点的特征向量集

9

CN 105488541 A

说 明 书

6/7页

[0072]

作为高斯混合分布模型

[0073][0074]

式中,D表示向量集合,ak,Sk,π协方差矩阵、每个单高斯模型k分别表示均值矩阵、

φ(D;akSk)表示数据的概率分布密度函数,d为

在混合模型中占的比例,πk≥0,

特征向量的维数,将中的特征向量作为核密度估计的采样点,通过期望值最大化公式估计参数θ:

[0075]

[0076][0077][0078]

L(D,θ)表示期望值或均值;根据高斯混合模型,特征点K与Ki匹配的概率可表示如下:

[0079]

[0080]以上述概率公式(1-6)作为判断特征匹配是否正确的依据,当时,若

则认为特征点K不符合Ki的分布模型,此时,将K从训练样本中排除,以提

高分类器的正确率。

[0081]第四步骤S4:通过机器学习对目标图像的自然特征点的特征向量进行建模;[0082]第五步骤S5:根据建模结果将目标图像中的多个自然特征点作为相应数量的不同的类别,分别判断场景图像中的每个特征点是否属于任一类别。[0083]例如,令t为场景图像中的特征点,class(t)为分类器对场景图像中的特征点t的响应函数为class(t)∈{-1,0,1...n-1},其中0,1,2…n-1表示目标图像特征点与场景图像中的特征点t相匹配的目标图像特征点的类别序号,-1表示没有目标图像特征点与场景图像中的特征点t相匹配;其中n,m均为正整数。[0084]根据机器学习的无免费午餐理论,不存在通用的最佳分类器。在实际问题中各种分类器在计算速度、内存空间需求等方面各有所长。因此本发明对各种分类器(决策树,随机树,支持向量机,K近邻等)进行测试,以选择最适合特征点匹配的最佳方法。[0085]实际上,本发明去除了相似特征点(例如,在一幅分辨率为640*480且细节较为丰富的图像上通常可以检测到1000-1500个特征点,而本发明通过训练样本的筛选后保留作为分类的特征点数目约为150-200),减少了干扰,从而提高了匹配正确率,而且可以更精确

10

CN 105488541 A

说 明 书

7/7页

地完成目标图像的跟踪和注册。[0086]在具体应用中,根据针孔相机模型和目标特征点处于同一平面的前提,本发明使用基于RANSAC的方法估计两幅图像间的单应矩阵H,并以单应矩阵H作为判断特征点匹配与否的依据,特征点坐标的偏移误差取为1.5个像素(此时实验测试效果较好)。[0087]需要说明的是,除非特别说明或者指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。[0088]可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等

依据本发明的技术实质对同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,

以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

11

CN 105488541 A

说 明 书 附 图

1/1页

图1

12

因篇幅问题不能全部显示,请点此查看更多更全内容