摘要:相关反馈作为跨越语义鸿沟的有效手段,已经被广泛应用于基于内容的图像检索中,本文则将相关反馈用于基于内容的视频检索中。体育比赛视频、新闻视频等特定领域的视频结构简单,研究者众,本文则以更一般的电影视频为研究对象,首次以情节为切入点,提出基于隐条件随机场(HCRF)的相关反馈算法,检索出用户感兴趣的各类视频片断。实验结果显示本算法检索性能良好。
论文关键词:基于内容的视频检索,相关反馈,隐条件随机场
视觉信息检索包括图像检索和视频检索,其中图像检索更为基础、简单,研究成果也较多,视频检索的研究成果则较少。其实,人们对视频检索的兴趣更为浓厚,并且已经作了一些有益的工作。随着生活中数字视频的迅速增加,人们常常需要从海量数据中寻找自己感兴趣的内容,但是这方面的工作多集中在结构简单的视频节目中,对更一般的视频节目(如电影)而言,检索则比较困难,原因是一般的视频节目中数据之间关系复杂,数据组织非结构化。
在视频检索领域,前人已经做了一些有益的工作,如镜头检测、镜头聚类、关键帧提取和视频数据库管理等。我们的工作在前人的基础上,结合影视学的相关理论,提出基于隐条件随机场的相关反馈方法。利用视频段内、视频段间对象之间时间、空间的关系建立隐条件随机场的模型。
2 蒙太奇思维
蒙太奇(montage)源自法语“安装、组合、构成”,原是建筑学术语,指将各种不同的建筑材料根据某种设计思路,安装、组合并构成有机整体的建筑,产生出新的功能和效用。引申到影视艺术中蒙太奇就成为各种元素的组合和结构。蒙太奇从技术环节上看,是影视后期制作中一道非常重要的工序——镜头剪辑,它主要是指:镜头长度的确定、镜头之间的组接、画面与声音间的组合,即除去素材中多余部分,将素材以帧为单位精确地拼接在一起,再将画面与声音有机结合在一起,使素材最终成为一部完整的视听作品。
3、相关反馈
将相关反馈(relevance feedback)引入检索过程,可以提高检索的精度。
“相关反馈”最早出现于文本检索中。因为用户提交的查询往往不能完全表达他们的检索目的,只能大致描述检索倾向,这样一次检索就得不到理想的检索结果。而且,只是一次检索,用户需要花费在初始的查询构造上的时间并不少,相关反馈的出现就解决了这个问题,初次查询的结果并不作为检索的答案,而是一个中间结果,系统根据这个结果得到用户的相关反馈修改查询要求,进行再一次的查询。具体来讲,首先用户给出大致要求,系统进行粗略的查询,返回给用户初次检索的结果,用户对初次检索出的结果集合进行判断,符合用户要求的标注为正例、不符合用户要求的标注为负例(也可以不标注负例),然后系统根据用户标注结果进行自我调整进行新一轮查询,如此反复,直至用户得到满意的检索结果或者系统的检索精度达到了稳定状态为止。相关反馈是将用户参与作为检索的一个重要环节。
3.1 查询点移动
每一轮查询,都使得查询点更接近理想查询点,检索样本中与正例相关的特征得到加强、与负例相关的特征得到减弱,通常用Rocchio公式来描述:
其中, —— 第次查询时,查询点的位置
—— 第次查询时,查询点的位置
—— 特征向量
—— 的基数
,, —— 加权系数
3.2 查询参数调整
考察用户正例反馈集合中特征向量的各个分量,如果反馈集合中的各个特征向量在向量空间某维上的分布越乱,则认为该分量与检索的相关程度就越小,所以,就应该减小该分量的权重,反之,则应增加该分量的权重。
3.3 支持向量机用于相关反馈时的不足
SVM在解决分类问题上取得很大成功。但是,现实很多任务面对的数据是需要多个标注的序列数据、空间数据或者结构化数据,SVM在处理这些问题时,对每一个目标独立地进行标注,忽视了大量有用的信息。而概率图模型可以利用这些数据的结构信息,表示出目标之间的关系,大大提高标注的精度。我们研究的对象是视频数据,这是时空信息丰富的结构化数据,所以,使用概率图模型是一个更好的选择。
4、 基于隐条件随机场的相关反馈算法
基于隐条件随机场的相关反馈模型可以方便地对用户感兴趣的多类视频进行检索。算法如下:
①由用户选出感兴趣的几段视频,并按类别不同给予不同的标注;
②由①中得到的样例集训练HCRF模型;
③利用训练好的HCRF模型将视频库中所有视频段分类,并按概率从大到小排序,返回值最大的若干视频片段;
④由用户标注返回的这些视频片断是否与用户的需求相关;
⑤将此次迭代用户标注得到的样例集与之前的样例集并为新的样例集,即累积样例集。返回步骤②,重复上面的步骤直至用户终止本次查询。
4、 1系统框架
利用HCRF模型对视频序列中的时空领域关系建模,使用在线学习的方式对相应的参数进行调整,实现对时空邻域约束关系的权重调整。
查询视频 检索结果 是 最终结果
否
图1 系统框架
5.1 镜头检测
视频内容以情节和事件组织,包含特定时间和空间内的故事或者特定视觉信息,所以,更应该将视频看作结构信息丰富的文档,而不是毫无结构的帧序列。镜头是摄像机的一次起停操作,是视频数据的基本单元,它代表一个场景中在时间上和空间上连续的动作,任何一段视频都由若干镜头组成的。
我们用象素对比较方法来进行镜头检测,这种方法非常简单,计算量也很小。实验显示,镜头检测效果可以满足下一步工作的需要。下面简要介绍一下象素对比较方法。
对两帧相邻的帧图像和,可以计算其对应位置上两个象素的灰度差:
如果这两帧图像中灰度差大于某个阈值的象素超过一定数目,即可认为发生了镜头转换。
2 多媒体特征抽取
用户感兴趣的镜头通常由相似的场景组成,并且具有相似的场景转换序列。因此,为了检测这些镜头,我们需要抽取能区分这些场景的特征。这些特征包括图像特征、音频特征、运动特征和时间特征。在前人针对比赛视频的检索中,认为图像特征是最为重要的,音频特征等只为检索提供补充的线索,而我们认为在影片中,音频特征等也表达了大量信息,与图像特征同等重要。多媒体特征及其抽取方法描述如下。
5.2.1 图像特征
图像特征中我们考虑颜色分布和边缘分布。
1 颜色分布
色彩是直接影响观众观看心理的影视画面构成元素,影片通过对画面色彩的设计和搭配形成影片特有基调,达到烘托主题、表达情感的目的。在我们的框架中,每一个子镜头由3个关键帧表示:最开始的帧、中间的帧和最后的帧。
1/2 1 2 下一页 尾页 |