论文导读::它试图对包含人的视频序列进行运动检测并进行目标分类。运动人体跟踪。行为理解与描述。
论文关键词:视觉分析,运动检测,运动人体跟踪,行为理解与描述
1 引 言
近年来,随着计算机视觉和图像处理技术的发展,由于其广泛的应用前景,运动人体行为分析吸引了广泛的关注。运动人体行为分析是一个跨学科的研究课题,主要研究内容涉及计算机视觉、图像处理、模式识别、人工智能、计算机图形学等多学科领域。它试图对包含人的视频序列进行运动检测并进行目标分类,提取出运动人体的轮廓,然后对检测到的人体进行跟踪,最后分析数据对运动人体行为进行理解及语义描述。对视频序列中的运动人体行为的分析是一项非常具有挑战性的课题,研究过程中会遇到许多的问题。难以选择一个能准确表示真实的人体的模型、人体的非刚性运动,人体的自遮挡和互遮挡等都会给人体行为分析研究带来很大的挑战[1]。
2 研究流程
运动人体行为识别是对视频序列进行处理行为理解与描述,涉及到运动检测、目标分类、运动人体跟踪、行为理解与描述这几项研究流程。
其中,运动检测、目标分类、运动人体跟踪属于底层视觉模块(low-level vision),而行为理解与描述则属于高层视觉模块(high-level vision)。
2.1 运动检测
运动检测的目的是在视频序列中将运动的人体区域从复杂的背景中提取出来。视频序列中的运动目标检测是运动人体行为分析系统中基础而又关键的环节,后续的目标分类、运动人体跟踪、行为理解与描述等环节极大地依赖于运动检测的结果.后续的几个研究流程是基于检测出来的运动人体区域进行分析[2]。然而,由于光照变化、阴影等背景图像动态变化的存在,给运动检测带来了一定的困难。目前主要用到的运动检测方法包括背景减除法、时间差分法、光流法。
1)背景减除法
背景减除法是运动目标分割中广泛使用的一种方法,特别是当背景是相对静止的情况下论文下载。它是利用当前帧和背景帧进行差分并阈值化来检测出运动物体,它能得到运动物体很全面的特征数据,但却对由于光线和其他无关事件影响的动态场景变化非常敏感。近来,有很多文献阐述了很多不同的背景减除方法,来尽量减少场景动态变化对运动目标分割的影响。这些方法主要是背景模型的类型和背景模型更新的方法不同。最简单的背景模型是时间平均图像,它是当前静止场景的近似。将最后N帧的中值作为背景模型,该算法在一定程度上能够适应光照变化带来的影响。Haritaoglu等[3]利用最小、最大强度值和最大时间差分值为场景中每个像素进行统计建模,并且进行周期性的背景更新;McKenna等[4]利用像素色彩和梯度信息相结合的自适应背景模型来解决影子和不可靠色彩线索对于分割的影响;Karmann与Brandt[5]、 Kilger[6]采用基于卡尔曼滤波(Karmanfiltering)的自适应背景模型以适应天气和光照的时间变化;Stauffer与Grimson[7]利用自适应的混合高斯背景模型(即对每个像素利用混合高斯分布建模),并且利用在线估计来更新模型,从而可靠地处理了光照变化、背景混乱运动的干扰等影响。
2)时间差分法
时间差分方法是在连续的图像序列中两个或三个相邻帧间采用基于像素的时间差分并阈值化来提取图像中的前景区域的方法。
3)光流法
光流方法采用了运动目标随时间变化的光流特性。例如Meyer等【8】通过计算位移向量光流场来初始化基于轮廓的跟踪算法。该方法的优点是在摄像机运动存在的前提下也能检测出独立的运动目标。然而,大多数的光流计算方法相当复杂,且抗噪性能差,如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。
当然,在运动变化检测中还有一些其它的方法,如Friedman与Russell[9]利用扩展的EM(Expectation Maximization)算法行为理解与描述,为每个像素建立了混合高斯分类模型,该模型可以自动更新,并能自适应地将每个像素分类为背景、影子或者运动前景,在目标运动速度缓慢的情况下亦能较好地完成运动区域的分割,同时可以有效地消除影子的影响;Toyama等[10]人国使用wiener滤波器对背景进行建模,在像素级运算的同时,考虑了区域与区域以及帧与帧之间的关系。该算法可以很好的提取运动缓慢的目标。
2.2目标分类
不同的运动区域可能对应于不同的运动目标。目标分类是运动人体分析的必要过程,它可以将其他运动物体与运动人体区分开。一般来说,目标分类的方法可以分为两种:
1)基于形状信息的分类方法
基于形状信息的分类方法首先描述运动区域的形状信息,例如点、框、块等.它通常被认为是一个标准的模式识别的问题。例如Lipton等[11]利用分散度和面积信息对二维运动区域进行分类,主要是区分人、车及混乱扰动,时间一致性约束使其分类更加准确。Kuno与 Watanabe[12]使用简单的人体轮廓模式的形状参数从图像中检测运动的人。然而,由于(人体)弯腰等关节性运动以及观察视角不同导致人体形状不同,使得利用基于形状信息的分类方法精确地将运动人体与其他运动物体区分开变得很困难。
2) 基于运动特性的分类方法
基于运动特性的分类方法利用非刚性的人体运动的周期性区分运动人体与其他运动物体。例如,基于时间频率的自相关特性技术被用于检测和分析周期性的运动[13]。
此外,上述两种方法经常被结合使用,设计出一个更为可靠的、视角无关的目标分类方法。实验结果显示了混合分类方法对于单独的基于运动特性或者形状信息分类方法的巨大优越性。多特征混合正逐渐成为现实场景中实现精确目标分类的重要方法[14]。
2.3运动人体跟踪
运动人体跟踪就是确定运动人体在每一帧中的位置,从而得到运动人体的时序运动轨迹论文下载。运动人体跟踪是一项很复杂的工作,主要原因在于:运动人体的非刚性运动;噪声干扰;运动过程中人体的互遮挡与自遮挡;三维空间向二维图像空间投影过程丢失部分信息等。常用的数学工具有:卡尔曼滤波器,粒子滤波器以及贝叶斯网络。卡尔曼滤波器常用于线性运动,且状态参数的概率分布为单模高斯分布;粒子滤波器是针对非线性运动多模非高斯分布的情况.CONDENSATION算法是一种典型的粒子滤波器。以因子抽样为基础的条件密度传播方法结合可学习的动态模型可完成鲁棒的运动跟踪。按照跟踪所使用方法行为理解与描述,有很多不同的分类标准[15]:
l二维方法与三维方法
l有模型指导的方法与无模型指导的方法
l传感器的模式(可见光,红外光,深度数据等)
l传感器的个数
l姿势估计方法与跟踪方法
l单个人的跟踪与多个人的跟踪
l运动类型(刚体运动。多关节运动和弹性运动)
我们可以把运动跟踪过程分为三个阶段:初始化、特征提取和跟踪[15]。第一个阶段,初始化是确定人在图像中的位置,对于基于模型的方法,这个过程还包括出示的模型初始的模型参数估计以及采用什么方法来表示人体模型两个问题。在第二个阶段,特征提取是从图像上提取感兴趣的特征。进行运动人体跟踪时,最常见的特征就是外轮廓、边界、灰度、颜色等特征。第三个阶段是跟踪,即在时间序列上反复地确定图像中人的位置,甚至是在每一时刻都要估计出表示人体模型的参数,得到一个在时间序列上的人体运动描述。
2.4行为理解与描述
人体行为识别与理解是指对人的行为模式进行分析和识别,并用自然语言等加以描述。人体运动(Movement)可以分为三大类:运动(Movement),活动(Activity)和行为(Action)[16].运动是形成复杂和高级运动的基础。活动的时间跨度更长,它反映了运动的目的。行为则是更高级别的运动,它反映了更大时间跨度的运动变化,也反映了人与人之间,人与环境及其他目标之间的关系。从识别人体的运动,比如弯腰,跳跃等,到理解人体的行为并能够进行语义的描述是渐进而复杂的过程。
人体行为识别可视为时序数据的分类问题,即将测试序列与预先标注的代表典型行为的参考序列进行匹配。目前的方法主要被分为两大类:
1)基于统计模型的方法(methods based on statistical model)
基于统计模型的方法是根据一定量的样本数据学习产生一个统计模型行为理解与描述,基于模型进行行为匹配。最具代表性的统计模型是隐马尔可夫模型(Hidden Markov Model)。其余还有条件随机场(conditional random field)、最大熵马尔可夫模型(maximum entropy Markov Model)以及动态贝叶斯网络(DynamicBayesian Network)[17]等。
2)基于模板的方法(template-based methods)
基于模板的方法的基本思想是首先将图像序列转换为一组静态形状模式,然后在识别过程中和预先存储的行为标本相比较。主要的方法有:模板匹配(template matching),动态规划(dynamic programming)以及动态时间规整(dynamic time warping)[18].
人体行为的语义描述是经过对运动人体的连续跟踪观察,对运动人体的运动模式进行分析和识别,判断该行为是否属于异常行为,并利用自然语言进行描述。尽管可以用很多的行为识别方法识别比较复杂的动作,但是由于视频中人体运动模式的理解和描述非常复杂,不仅需要识别和理解视觉输入,还需要场景中相关知识和背景信息,因此以一种有效的方式传达场景信息,用自然语言描述运动人体行为以进行行为分析是很困难的。目前人的行为描述还只局限于简单的语义解释,如Remagnino等[18]提出了一个基于视频对象行为的视觉监控系统,该系统提供了三维场景中对象动态活动的文字性描述。
1/2 1 2 下一页 尾页 |