摘要

在人的视频序列上合并虚拟物体对于电影特效和增强现实等许多应用是一个重要的技术。在传统的方法中，操作员手动的在人体视频序列上匹配3 d人体模型，并在当前三维身体的视角上生成虚拟物体。然而，人工拟合是一个耗时的任务，并且需要自动注册。在本文中,我们在合并虚拟对象到人类的视频序列的问题上提出一个新方法。首先，我们利用时空分析和人体的结构知识跟踪当前三维构成的人体视角。然后我们生成CG对象，将CG对象和人体形态相合并。在本文中，我们演示了将虚拟衣服和捕获的人体视频图像合并的例子。

1. 介绍

在人的视频序列上合并虚拟物体对于电影特效和增强现实等许多应用是一个重要的技术。在传统的方法中，操作员手动的在人体视频序列上匹配3 d人体模型，并在当前三维身体的视角上生成虚拟物体。然而，人工拟合是一个耗时的任务，并且需要自动注册。

虚拟物体视频图像的自动注册也被称为“移动匹配”[10]。传统的技术利用相对场景的相机位置的估计。在这种情况下，使用估计的摄像机的位置和方向生成的虚拟对象，与输入的形象进行合并。类似的技术也在增强现实应用方面被研究[1、2、3、4、5、6、7]。然而，虚拟对象与一个复杂的例如人体这样的铰接数据进行合并仍然是一个困难的问题。

在本文中，我们提出一个针对人体图像相关的虚拟对象新的自动注册技术。作为一个典型的例子，我们合并CG衣服到人类的视频序列。首先，我们利用时空分析和人体的结构知识跟踪当前三维构成的人体视角，然后我们生成CG衣服，并且将衣服与人体合并。

2. 综述

图2显示了该算法的概述。首先，我们从视频中估计人类的三维姿态数据。我们使用图4中3 d人体模型来估计每个部分的构成参数。我们用关节结构来代表人体，这个结构包括10成块的对应身体部位，头，上臂(urarm,ul-arm)，下臂(ul-arm ur-arm)，上腿(ur-leg,ul-leg)，腿下(lr-leg ll-leg)的部分。运动参数通过使用时空梯度法来估计。通过集成一个对初始姿势帧的姿态参数的序列获得每一帧的人体姿态。

然后，我们使用关节物体的姿态参数生成CG对象。使用姿势参数和身体的3 d形状也用来估计由于身体组成而导致自我阻塞。图1显示了将虚拟的衣服合并到人类的视频序列的例子。一个可能的应用这种技术的应用可能是虚拟试衣镜。

3. 人体跟踪

3.1人类运动模型

一个由CAD建模者制作的人体模型近似可以看成多面体。这个模型是一个有主干的树结构，并且是以关节点为原点的相对坐标系。身体每个部分的刚性运动都是旋转和平移的结合，用一个矩阵Qbj和向量Sbj来表示，j是该部分的数字。当一个在j上的3 d点从pj 移动到pj，位置的计算公式

假定运动幅度很小，旋转矩阵Qj是

如果θxj，θyj，θz j在x，y，和z轴进行小范围的旋转，在世界坐标系的pw点可以和相机坐标系的pci相互关联通过

假设一个身体1和2是一个父母和一个孩子，身体2上的点pi移动到一个新的位置pi’。新位置的计算方式如下。

当Rbj和Tbj面向对象坐标系统中的旋转和平移。雅可比矩阵可以从方程式获得(5)，如下。

3.2运动参数估计

可以使用时间梯度法估计空间和运动参数。三维下的光流约束[11]尺寸可以写成

用方程式(6)取代(5)，运动参数可以通过最小二乘法获得。

方程式(7)可以扩展到多相机的形式。假如摄像机的数量，我们可以得到n系统对应于摄像机的线性方程组。通过收集这些n系统我们可以得到一个线性方程组。

4. 初始注册

3s内的运动估计技术只估计帧之间的人体情况。因此我们需要身体模型的初始注册来输入图像。我们通过从输入的2 d图像中提取每个部分身体姿势的中心线来估计初始身体角度。

4.1模型注册错误

图4显示了2 d图像平面中线和相应的3 d身体部位的关系。2 d中线可以通过使用人类的轮廓身体形象和轴的计算原则来获得。这个身体部位的位置和方向可以表示为x =[ r,t]^T其中t是平移和r是旋转沿xyz 轴。2 d中心线和3 d的身体部位的错误可以通过P =(p1,p2)和平面M三维线段之间的最小距离计算得到。

R是一个来源于r的3×3矩阵。平面M的单位法向量是n。

h(x，l）可以使用初步估计l =ˆli和x =ˆx（i−1）的泰勒展开线性化。

当有偏导数。

4.2减少注册错误

我们通过使用扩展卡尔曼滤波(EKF)[12]来减少2 d中心线和3 d之间身体部位错误。使用卡尔曼滤波器的估计的优势是当新测量是可用时该估计可以被更新。测量方程

当

可以通过使用卡尔曼滤波方程优化。

K是卡尔曼增益和σi是协方差矩阵的测量。R是一个估计的协方差矩阵。

5. 合并2维物体

5.1布仿真

我们使用在Sec.3和Sec.4之间的姿势参数估计生成衣服CG。我们使用MAYA对衣服仿真。我们可以使用任何其他衣服模拟技术来实现该目的。我们在光滑表面使用一个近似的身体模型模拟衣服CG的自然形状。身体每个部分的大小与跟踪到的3 d模型相等。

5.2处理遮挡

我们不能简单地叠加虚拟物体，因为它的身体部位可能会导致部分闭塞。例如，用户的手可能在虚拟物体之前。我们需要获取相对深度信息来计算身体的哪些部位可能需要挡住虚拟物体。同样，我们使用近似人体模型来处理遮挡。

1)首先，我们创建人类的身体三维模型的纹理映射。因为在输入图像时，人体模型已经进行了注册，输入图像的强度值可以存储作为一个3 d模型的纹理。

2)衣服的CG和发型被添加到三维人体模型的纹理上。

3)一起渲染身体模型的纹理映射和CG对象获得合成图像。

在我们的实验中，身体模型小的形状的区别不是至关重要的，因为我们通过输入图像的相同的视图进行渲染。

6. 实验

我们开发了一个使用电脑来演示该算法的原型系统。图5显示了初始的示例模型匹配。(a)是一个输入图像，(b)中提取中心行。(c)模型匹配的结果。

图6显示了一个行人的视频序列。输入图像是640 * 480的50帧。(a)第30和第40帧输入的图像序列。(b)的跟踪结果。将输入图像叠加到人体模型的线框上。(c)是从输入图像上使用3 d的身体形象姿势估计生成的衣服CG。(d)是带有衣服cg的输入图像。

7. 结论

在本文中，我们对于一个例如人体的铰接数据提出了一种新的移动匹配技术。首先，我们通过使用时空分析和人体的结构知识跟踪当前的人类的3 d形态。然后我们生成CG衣服，并将衣服和人体图像数据进行合并。我们演示了使用视频序列的例子。未来的工作包括提出了的技术的实时实现。

参考文献

[1] V. Blanz, T. Vetter: “A Morphable Model for the Synthsis of 3D faces”, Proc. SIGGRAPH’99, pp.187-194, 1999

[2] M.Bajura, H.Fuchs and R.Ohbuchi: “Merging virtual objects with the real world: Seeing ultrasound imagery within the patient”, SIGGRAPH ’92, pp. 203-210

[3] M.Bajura and U.Neumann: “Dynamic Registration Correction in Video-Based Augmented Reality Systems”, IEEE Computer Graphics and Applications, Vol.15, No.5, Sep. 1995,pp.52-60.

[4] M.Bajura and U.Neumann: “Dynamic Registration Correction in Augmented Reality Systems”, IEEE VRAIS 1995 Proc., 1995, pp.189-196.

[5] E.K.Edwards, J.P.Rolland and K.P.keller: “Video See-Through Design for Merging of Real and Virtula Environments”,IEEE VRAIS 1993 Proc., pp.222-233.

[6] S.Gottschalk and J.Hughes: “Autocalibration for Virtual Environments Tracking Hardware”, SIGGRAPH’93, pp.65-72.

[7] R.Azuma and G.Bishop: “Improving Static and Dynamic Registration in an Optical See-Trough HMD”, SIGGRAPH ’94, pp.197-204.

[8] A.L.Janin, D.W.Mizwell and T.P.Caudell: “Calibration of Head- Mounted Display for Augmented Reality Applications”,IEEE VRAIS 1993 Proc., pp.246-255.

[9] D.M. Garvila:”Visual Analysis of Human Movement: A Survey”, Computer Vision and Image Understanding, Vol.73, No.1, pp.82-98, 1999

[10] C. Barron:”Matte Painting in the Digital Age”, Animation Sketches, SIGGRAPH’98, 1998

[11] M. Yamamoto, A. Sato, S. Kawada,”Incremental tracking of human action from multiple views, Proc. of CVPR’98, pp.2-7, 1998

[12] H.W. Sorenson:”Kalman Filtering: Theory and Application”, New York, IEEE Press, 1985

（翻译：曹超）

分享&收藏

转载请注明：陈童的博客 » 一个用于CG动画和人的视频序列合并的移动匹配技术