1 介绍
随着技术的快速发展以及ADSL和万维网广泛的可用性以及用户的增长,人们在网上能容易的找到以及上传大量的视频。然而存在着太多的复制品和转换的视频片段,而且其中一些可能是非法拷贝或广播,所以数据库和版权管理现在遇到了大问题。有两个主要的途径解决这些问题,一个就是众所周知的“水印”,另一个就是这个主题,“视频指纹”。图1.1,1.2和1.3显示了这些技术。
水印依赖于插入一个明显的样本到视频流,拷贝检测技术匹配基于内容的签名来检测视频的拷贝。基于内容的拷贝检测(CBCD)主要的论点是“媒体自身就是水印”,媒体包含足够的独一无二的用于拷贝检测的信息。基于内容的拷贝检测方案是从源视频提取少量的相关特征,叫做视频的“指纹”或“签名”。从测试视频流提取同样的签名以及比较源视频签名根据专用的投票算法来决定测试流是否包含源视频的拷贝。
水印的瓶颈在于插入的标记容易在视频格式转换或传输时遭到毁坏或扭曲,而基于内容的拷贝检测的视频签名能在媒体分散后提取。这就是视频指纹最近为什么能吸引更多更多的关注而本文将探讨它如何用于拷贝检测。
第二章讨论了视频指纹检测的挑战,第三章讨论了视频指纹概念和先前的工作。第四章说明了整个CBCD系统的步骤和状态,也包括了强大的方法的详细情况。第五章简要介绍了我的工程,第六章给出结论以及讨论了将来的工作。此外,两个报告,“视频拷贝检测技术的比较”和“视频指纹的核心”作为本文的补充。
2 视频检测的挑战
人们通过眼镜能轻易的判断测试视频是否是视频数据库的拷贝,但对于计算机却有困难。一个视频片段根据不同的目的能编码成不同的格式(如AWG比DVD需要更少的存储空间但质量更差)。不同的格式能引起几种扭曲,诸如图片的亮度、色彩、饱和度以及空间改变。除了这些数字人工产品外,有损编码处理提出的像有块影响的MPEG。有许多种签名提取方法依赖于颜色和视频的图片信息,如直方图和颜色聚合向量,以及由于上面提到的人工产品的错误检测可能出现。
除了来自不同格式的扭曲外,还有一些其他种类的因素使得拷贝检测变得困难,如帧的丢失,传送和存储过程中的噪音,普通扭曲变得模糊。检测因素几乎不会来自拷贝视频的建立,例如,仅仅裁剪掉视频的一小部分,放大或改变对比度,插入文本或商标,以及改变源视频的背景或甚至连接视频片段成新的视频。图2.1说明了一些情况。
首先,CBCD仅仅用于检测整个电影,但是现在,越来越多的复杂的视频指纹方法被创造用于解决新生的情况。
3 先前的工作
CBCD最重要的部分是特征提取。指纹的特征应该仔细的选择因为它们直接影响到整个视频指纹系统的性能。什么样的视频信息能用于建立一个良好的识别和鲁棒的指纹?文献3提出了三个重要的特性:
鲁棒性:从复制的视频提出的指纹应该和源视频的指纹相似 两两独立:两个感知上不同的视频,必须有不同的指纹。 数据库搜索效率:指纹必须适合快速的数据库搜索
许多特征被提出用来作视频指纹,如颜色直方图,平均亮度和它的变种,主颜色等。但是在第二章简要声明了颜色或灰度图片对颜色或亮度变化的鲁棒性不好。图3.1给出了一个如何校正灰度图像以及直方图均衡化影响灰度直方图的例子。
从这个例子,甚至是相同内容的图片能有完全不同的特征,以及在不同图片上执行直方图均衡化的操作就可能发生错误的检测。
已经提出了基于视频内容更多信息的特征提取技术。例如,本文提出的运动趋势,有序亮度,颜色直方图进行了介绍和比较。让我们回到视频的内在质量,视频和图片之间到底有什么不同?视频能被看成是图片流,通常每秒包含24帧以上的图片。视频的一个天然的重要的特征是帧之间的信息。特征能分到三维:
颜色维:这个维取决于帧的颜色或灰度内容,如直方图、色度、饱和度等。
空间维:这个维提取颜色的分布或目标帧的排列,如空间域的按序签名和方向梯度的质心等。这个组主要的想法是根据每帧像素位置的不同而不同对待每个像素。
时间维:帧之间的变化或帧的顺序是这个维主要的思想,运动检测和ViCopT(Video
Copy tracking?)是流行的利用时间信息的例子。
文献1简要的介绍了这三个维,以及本文的实验结果显示在签名方面越是大规模的开发鲁棒性就越好。按序的亮度签名把每帧分成9块,比较它们的平均亮度然后给每块分派一个数。这个技术包含颜色和空间维以及它的匹配函数也有空间维的内容,无疑地它在颜色直方
图中占优势。为什么按序亮度比运动检测要好,因为它利用相对关系而不是提取的信息,这个使得签名不受全局改变的影响,作为视频被介绍通过数字化/编码处理。
但是如果利用这三种技术对待背景改变或商标植入会发生什么情况呢?结果是相当的不可靠。主要的原因是这三种技术利用每帧“所有的信息”,也叫做“全局特征”。详细的说,视频放大0.8倍时将会离开它的边缘并变成黑色因此严重地导致直方图的改变甚至平均亮度。这有另外的特征分类由文献[2,4,6]如下。
全局描述:一个描述仅仅意味着提取签名的方法。关键词“全局”说明了这个分类的签
名来自整个图片。
局部描述:签名仅仅是整个图片的部分,如Harris角点检测和SIFT关键点检测。 利用局部描述在背景发生改变或植入商标的结果比利用全局描述要好。局部描述的主要优势在于仅仅关注一些兴趣点而不是整个图片,所以哪怕背景占据了很大的空间发生改变,只要签名仅仅采用关键点的信息,这样就仍能检测拷贝。
局部描述的关键性质还能用于解决另一个大问题,基于内容的视频检索CBVR。拷贝和类似图片的概念在CBVR中相遇,他们之间基本的不同带来了一个重要的困难:拷贝不是完全相同的事物或者一个接近的视频序列复制而不是视频序列的变化。这些测光的或几何的转换(伽马和转换对比,覆盖物,转换等)能极大的修改信号。从图3.2能看到为什么CBCD和CBVR间的区别这么重要。利用全局特征可能检测图3.2(a)中相同的视频但图3.2(b)中不同的视频,但随着设置关键点在运动目标上移动(图3.2中为投手和歌手),就很可能得到正确的检测。
广泛的应用局部特征技术被介绍在一些参考文献[2,4,6,7,8,9,10]。关键点提取方法和局部描述方法领域的不同组合有不同的结果,第四章将会更详细的讲到相关技术。
4 程序,步骤和符号技术
我们已经完成几种视频指纹技术的概念和情况,现在说明整个CBCD系统的程序、步骤以及符号和包含的每步强大的技术。
图4.1 给出了整个系统的略图。将整个工作分离成三步:数据库处理,匹配和测试查询处理。在这三个步骤中有四个模块:数据,操作,策略块和最终决定。接下来是说明。本文介绍整个系统而不是仅仅介绍“特征提取”部分是因为不仅仅这个步骤而且其他步骤都能影响技术的鲁棒性。
4.1 三个步骤
4.1.1 数据库处理:
拷贝检测的预处理工作,或者称为离线工作。此处不考虑时间问题因为我们能在任何利用拷贝检测的时候来执行这个工作。
4.1.2 测试查询处理:
这个是拷贝检测的开始。在这部分,一个视频或小片段将要被测试查找是否是视频数据库的一个拷贝。此处需要考虑时间消耗快。 4.1.3 匹配:
这是系统的决策部分。签名匹配应该有一个强大的匹配函数或投票算法。此处也需要考虑时间消耗。
4.2 四种类型模块
4.2.1 数据:
图4.1中有三种不同的数据块。“数据库中的视频”意味着源视频、真实视频集合。数据库可能存储在版权管理机构,如文献2中用到的INA(法国音频视频研究机构)。“测试片段”代表可疑的副本需要核实。“签名数据库”包含视频数据库提取的签名。 4.2.2 策略
此处策略块表示不同程序选择执行拷贝检测。我们将会看到不同的技术,签名能代表整个电影、整个场景或仅仅视频的关键帧。图4.1仅仅只有一个策略模块:“是不是关键帧”。 是不是关键帧
从我读的论文,签名的提取能在所有的视频/场景帧或它的几个关键帧中执行。关键帧简单而且能有效的总结一段长视频序列,例如,新发布的影片官方网站提供一组简洁的电影描述图片。
为什么并不是所有的签名提取技术从每帧获得特征?第一个原因是加快处理过程和使得指纹简洁,我们将看到复杂的计算一帧喜欢用关键帧而不是视频序列所有的来建立指纹。第二个就是避免帧丢失。我们将在后面4.2.3讨论更多。
没有关键帧提取的技术,例如ViCopT来自文献2、4、6,梯度方向质心来自文献3,以及按序直方图特征,YCbCr直方图特征来自文献5。利用关键帧特征提取技术的例子包括简约梅林变换(CFMT),尺度不变特征变换(SIFT)来自文献5,以及来自文献7的运动检测,按序亮度签名以及来自文献1的颜色直方图签名,他们都需要关键帧,但这些帧能随意的选择。签名是从所有的帧提取的但他们只有一部分用于匹配步骤。 4.2.3 操作
此处操作模块是提取签名算法。我们能把这个工作分成三个不同的步骤:边界/场景分离,关键帧提取,以及签名提取。这些是CBCD系统最主要的技术步骤,下面给出他们的几个例子。
边界/场景分离
这个步骤关注与场景分界的检测。有许多种基于场景的签名的CBCD方法,原因是场景里的帧相似或相关,以及拷贝片段可能仅仅只有一个场景的剪辑。一个场景可以看做电影里的一个事件,或另一个术语,镜头,意味着来自相同摄像机或相同角度的帧,而且对于计算机来时很难区分这两种状况。一般而言,场景边界的直方图或颜色内容变化许多,而有时这些内容在镜头边界也会发生强有力的变化。检测场景边界基本的方法是直方图变化衡量法,但是在电影里,一些场景边界经过处理只有很少或很低的直方图改变,甚至一个场景能包含一些直方图急剧变化的点,使得场景边界检测困难。一个有效的算法形成对我们来说太复杂,所以在我们的实验中,我们仅用一个软件建立在线场景分离。 关键帧提取
从4.2.2中,我们知道关键帧对各种各样提到的技术不是必须的,现在我们讨论更多关于内容和提取技术。视频关键帧是能代表视频镜头或场景的显著内容。关键帧给视频索引、浏览和检索提供适当的抽象。提取的关键帧收集小的代表图片能作为整个视频片段的地图,以及应该自动的和基于内容的以便能保持显著的视频内容而避免冗余。
一大组关键帧应该给视频一个清晰的描述,以及期望能在源视频和它的拷贝中提取到相同的关键帧。为了解决丢失帧状况,我们假定选择的关键帧丢失,在它周围的相似内容的帧很可能被选择以保持监测准确;不需要关键帧的技术几乎不能解决这个问题。
当前关键帧提取技术能根据它们各种各样视觉内容的衡量视觉镜头或序列的复杂度以及文献12中的说明来分类。 特征提取
这个是视频指纹的核心。特征提取方法的选择直接影响拷贝检测性能。在这里只解释利用视频信息的想法来构建视频指纹而不是介绍提取的技术。很难解释清楚哪种特征适合构建视频指纹因为这个技术的发展被用来解决存在的视频变换或攻击。当出现一个新的攻击时,以前提到的技术就可能不能处理它。因此,需要新的技术。但是基本的视频信息工具是值得讨论的,现在讨论基本的规模、颜色、空间和时间:
颜色:最简单,像素值。直方图不要考虑像素值来自哪里仅仅只是统计的情况,而且有些相似的方法如色彩、饱和度甚至计算每帧的平均值和方差。改良的方法包含块的概念,意味着分割一帧成几块然后存储以得到局部信息。
视频指纹有帧信息的分布的兴趣点是必要的,或者说它需要新的空间分布。像利用YCbCr直方图,对于每个组成部分一个方法给5位(bins)以维持这个关系,所以最后一个3D空间被创建了;而另一个是分开的情况,绘制一个像素到三个直方图。即所谓的颜色性质就是图片的本性,明显地,直方图能绘制不同的图片,这将是一个灾难。
空间:比颜色性质更深入,这个性质包含像素点之间的关系。我们能够说,如果颜色等于2D-FT部分大小,那么空间就等于阶段部分。
最简单的开发空间信息的方法之一就是分块。对于每一个块,不仅仅能用的有直方图,而且绘制它到一个特殊的颜色空间和利用3颜色作为一个标记也是可用的。对于直方图,块中心附近的像素点比另一方法带来的空间信息有更高的权重。包含的空间信息越多,方法就越强大。例如,图片利用分块以及计算平均灰度值,利用直方图记录比依序分块位置记录要差。
除了分块外,像素点周围的梯度是获得空间信息另一种方法,并且这个计算能能在每个像素点或仅仅每个小尺寸分块的中心像素点上执行。类似的,存储的时候,存储的数据作为直方图或按序存储将影响到性能。每块的每个像素的梯度都被计算而且大小不分用于加权方向。最后达到每块的重心并且帧签名是一个带有块数量每个元素的向量。
局部描述能自己开发空间信息,一个复杂的问题是怎样处理描述符号间的关系。例如,怎样知道一幅图片仅仅是另一幅图片的旋转版本通过局部描述确实是一个难题。点之间的梯度或信息经常地用于兴趣点的描述,意味着不仅仅局部而且环境也需要被记录。
弱空间信息仅仅通过分块,而更强的则是利用点之间的关系,甚至结合这两种方法。计算机视觉或目标识别技术能用于提高性能。所有图像识别的技术都值得尝试开发空间信息,当然需要考虑计算时间和数据存储。 时间:图片和视频之间的差异,以及视频指纹讨论的核心。一个简单的方法计算不同的图片,但是两帧之间相应的像素的不同不能适切的表示两帧间的不同。另一个简单的方法是得到每帧一个向量然后视频被记录成向量序列。强大的方法使用运动向量就像在视频压缩中使用的一样,而且对于帧差异它更具符号性。其他方法计算时间和空间维度的梯度,用于描述兴趣点。
关键帧技术似乎仅仅从几个帧开发特征,而关键帧自身包含了时间信息。他们在时间轴上重要的位置,以及强大的关键帧提取技术能提升视频的可区分性。关键帧提取有点像预测谁的技术是自我定义的以及由它的性能来评估的。
一个简单的方法用于帧提取就是记录每个镜头边界之间的时间段和每个边界的局部时间信息。这个边界内容是没用的,所以只有时间信息是可用的。对于短视频,它可能得到两个不同视频的镜头边界的相同时间序列,这就是为什么这个方法用于匹配整个电影。 其他概念:
(1)更多规模(颜色,空间,时间),更具鲁棒性
(2)局部描述比全局描述更具强健尤其是对于商标和文本植入 (3)按序记录比实际指标记录更好
(4)为了处理图像旋转通过一些算法记录图片的方向是比较好的。
4.2.4 最后的决定
最后的决定是视频匹配和拷贝检测最后的步骤,由搜索,投票算法(匹配函数)和一个阈值组成。搜索意味着在数据库找到一些可能包含测试片段同样内容的候选视频,投票函数确定哪个是最好的匹配,最后的结果与阈值像比较确定测试视频是不是拷贝视频。
这里介绍签名存储的概念。第一,应该区分两个术语:储存和登记。储存意味着安排这个信息到某一形式;而匹配过程中的登记是来自数据库的候选者将带有时间,空间位置和变化编入索引。
在签名提取阶段,一幅图片的信息是开发、安排、转换成简洁的可识别的描述,而且这个描述存储起来用于将来的拷贝检测。对于全局描述,存储的签名是安排的形式,意味着很难从签名来说明源视频是什么;对于局部描述可能情况就不一样了。一些局部描述方法像SIFT排列一帧的兴趣点信息以直方图形式,但是一些方法仍然在签名提取步骤的最后记录兴趣点的位置,像ViCopT。
对于不同的存储状况(排列或没有),最后决定的步骤是不同的。在搜索阶段,对排列过的签名(尤其是全局描述),结果将会有几个带有时间位置的候选视频,而对于非排列签名(兴趣点),每个点描述将会有从数据库的几个候选点使决定变得复杂。
投票函数是确定最好的匹配。文献4中,一个普通的模型用于处理视野时间点的旋转,放大,转换和减慢/加速运动:
X'rcos'Yrsin't0crsinrcos00X0YattcbXbYbt (4.1)
X',Y,tc和X,Y,tc是两个点匹配的时空坐标。
''转换模型参数是利用随机样本一致算法对每个检索视频片段Vh来估计的。一旦转换模型被建立,最后的相似度衡量m(Vh)相关的检索片段Vh存在于计算匹配点的数量,根据小的时间(对全局特征)和时空精度对于局部特征。
对于排列签名,一般的相似衡量方法是距离衡量,如L1,L2距离,或者标准化关联。而且最小的距离或者最大的标准相关是根据最好的匹配来决定。对于非排列签名,我们得到一些每个点描述的组合结果确定数据库可靠的候选视频序列,以及点匹配数量是确定最好匹配的线索。
5 简要介绍我的工程
我在UIUC的工程是产生一些方法比较它们的性能。有几个步骤:数据库创建、关键帧提取、特征提取、匹配函数、性能衡量和结果。 5.1 数据库创建 5.2 关键帧提取 5.3 特征提取 5.4 匹配函数 5.5 性能衡量 5.5.1 我们的检验程序 5.5.2 5.6 结果
6 结论和特征工作
第五章以后,我们基本理解了视频指纹。现在介绍一些遇到的问题和我的想法。 6.1 我的疑问和答案
首先,几乎所有的特征提取都是基于帧,意味着提取的信息是一帧随着一帧。然后,组合以及改善帧的特征成视频指纹。因此,当学习ViCopT和写这个报告的时候,总有一个疑问,“视频指纹利用帧特征相同的想法,它为什么不能应用到基于内容的图片识别?”。在UIUC,我上了两星期的计算机课程,我疑问图片识别的发展怎么如此全面,而且像目标识别、计算机视觉、角度和边缘检测所有能提高识别性能的技术。然后,为什么不用这些技术到视频呢?为什么帧特征提取技术或视频指纹看起来检索更容易?
这些天,我逐步找到了问题的答案。图片识别仅仅关注图片,而当一个20秒长的视频包含将近1000帧,匹配的速度应该考虑进去。此外,图片识别的特征能够在匹配的过程中提取,而视频拷贝检测应该为数据库的视频建一个指纹库。因此,高度复杂的计算和大量的存储要求不适合视频指纹。
6.2 我的想法 6.3 将来的工作
除了找到新的视频特征和组合提出的特征提高性能外,我们仍需要面对新的转换的挑战。在UIUC教授给了我一个例子,“如果一个视频或电影在空间域而不是时间域裁剪成两个片段,这意味着把每帧分割成两或更多的部分然后传送他们,我们怎么处理它?”。这个可能是将来的一个好的研究主题。
因篇幅问题不能全部显示,请点此查看更多更全内容