精华区文章阅读

发信人: Muller (胖胖熊~~雨巷, 林中路和山), 信区: other
标  题: MPEG 4综述（6）
发信站: 听涛站 (Sat Feb  3 10:15:53 2001), 转信

6 MPEG-4的关键技术
MPEG-4的关键技术主要有：形状编码、运动估计与补偿、纹理编码、容错性、精灵编码
、可分级编码等。
(1) 形状编码
在MPEG-4视频标准中，有两种形状信息被认为是视频对象的内在特征：二值形状信息和
灰度形状信息。视频对象平面VOP 是视频对象VO的实例。VOP由亮度和色差信号YUV信息
加上表示形状信息的阿尔法平面。来描述阿尔法平面主要有两种：二值阿尔法平面
，适用于视频序列被半自动地分割而定义的VOP；灰度阿尔法平面，适用于由视频序列结
构可以直接得到的VOP如基于蓝屏技术组合的或合成的序列。
对灰度阿尔法平面采用运动补偿和DCT编码，这与纹理编码很类似。对二值阿尔法平面采
用基于内容的算术编码 CAE。CAE的主要思想是对二值阿尔法平面中的每一点利用与其相
邻的几点来预测其为零或为一的概率，如果预测准确则不对其进行编码，如果预测不准
确则根据预测概率用不同长度的码字表示，其原理类似于熵编码。
(2) 运动估计与补偿
运动估计与补偿是运动图像编码中用以消除图像序列时间域相关性的有力方法。MPEG-4
对VOP的编码提出了3种模式：I-VOP(Intra VOP)，独立于其它VOP而进行编码的VOP；P-
VOP(Predicted VOP)，根据以前解码的VOP而预测的VOP；B-VOP(Bidirectional Interp
olated VOPs)，根据过去和将来VOP而预测的VOP。
MPEG-4的运动估计采用了已有标准中被证明有效的几乎所有策略。比如，MPEG-2中采用
的帧场预测、H.263中所采用的无限制运动估计模式和先进预测模式等。除了采用已有编
码标准中的有效技术，MPEG-4中运动估计与补偿还作了以下两方面的改进：
①由于VOP往往是任意形状的，因此为了获得更好的预测效果，MPEG-4在VOP的边缘处采
用了多边形匹配方法。
②MPEG-4在运动估计与补偿时对参考VOP采用了基于宏块的重复填补方法。整个重复填补
过程分成水平重复填补和垂直重复填补两部分来实现，对于完全不在VOP中的宏块将采用
扩展填补方法。
(3) 纹理编码
VOP的纹理信息包含一个亮度Y和两个色度Cb、Cr。对于I-VOP，其纹理信息直接由亮度和
色度成分表示，而对于运动补偿的VOP，纹理信息表示经过运动补偿后的剩余误差。经过
运动补偿去除时间相关性的图像信息经过DCT变换可以进一步去除空间上的相关性，再经
过量化、VLC编码以达到压缩的目的。而对于基于对象的图像编码，由于分割出来的图像
具有任意形状，对于边缘块不能直接运用传统的8x8二维DCT。MPEG-4提出了一种低通填
补技术，将8x8方块内不属于对象的部分按低通填补方法填入数据，再对其进行DCT变换
。该方法优点是可利用原来DCT的各种快速算法，但是该方法很难保证填充的数据使DCT
变换后的系数能更集中。MPEG-4中另外一种处理任意形状的纹理的方法是采用形状自适
应离散余弦变换(SA-DCT)，SA-DCT简单，易于实现，以及和传统的DCT 有较好的兼容性
。
MPEG-4的纹理编码中除了采用SA-DCT外，还引入了一个被称为AC系数预测的方法。它是
通过以前(当前块的上面或前面)编码块的第一行和第一列的AC系数对当前块相应位置的
AC系数进行预测。
(4) 容错性
MPEG-4的容错性使得用户对各种存储和传输媒质中的图像和视频信息的存取成为可能。
MPEG-4中提供了4种容错工具：再同步，数据分离，头扩展码以及可逆的可变长编码(RV
LC)。
再同步是最常用的一个工具，MPEG-4采用"包"(packet)方式来实现同步，"包"由比较固
定的比特数组成，当包中的比特数达到一定阈值时从下一个宏块开始将插入一个"包头"
标志，作为一个"包"的开始码。与MPEG-2和H.263采用宏块组GOBs的同步方式相比，"包
"方式更有效。
数据分离方法是把运动信息和纹理信息分开。具体做法是在运动信息和纹理信息之间插
入一个同步头，如果纹理信息丢失，可以利用运动信息取出前一个VOP相应位置来掩盖错
误。
头扩展码是在头信息中加入可选的冗余信息，以减少数据流头信息的丢失和破坏机会。

可逆的可变长编码(RVLC)是一种比较有效的增强容错性方法。在RVLC中，可变长码字设
计成可逆的，即可以从前后两个方向来读取。但是采用RVLC方式，它的熵编码效率会受
到一定影响。
(5) 精灵编码
为了对作平移，旋转，缩放等运动的对象进行预测，MPEG-4中引进了"精灵"(Sprite) 编
码。一个"精灵"是由一个视频片断中属于某个视频对象的全部像素点组成的图像。例如
一个背景"精灵"包含整个序列中的全部背景部分，其中某些部分由于物体遮掩而在一些
帧中是不可见的，但任何一部分至少在一帧中是可见的。"精灵"编码的一个主要部分是
估计当前VOP与前一个VOP或当前VOP与"精灵"之间的全局运动。
（5）可分级编码
MPEG-4引入了对可分级编码的支持。可分级主要分两类：一类是空间可分级，以满足不
同用户对不同分辨率的要求；另一类是时间可分级，以满足不同用户对帧率的不同要求
。考虑二层可分级模型：基层和增强层。对于空间可分级，基层对应低分辨率层，增强
层对应高分辨率层；对于时间可分级，基层对应于低帧率层，增强层对应于高帧率层。

--
          法学院BBS: bbs.law.tsinghua.edu.cn
          FTP站: 166.111.104.5
          水木摄影板的根据地: ftp://166.111.104.5/incoming
          Welcome.

※ 来源:．听涛站 cces.net．[FROM: 匿名天使的家]

Life 版 (精华区)