求 信息论与编码 学习心得
PICK语音APP
2024-11-17 14:22:04
最佳回答
学习信息论与编码感想多媒体信息是未来人类获取信息最主要的载体,因此它已成为目前世界上技术开发和研究的热点。视频信息作为多媒体信息中最被关注、数据量最大的一员,现在也正面临着一场其意义不亚于从模拟到数字的技术进步革新:从传统的矩形dct变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法。一、传统的编码方式传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容无关,无论是m-jpeg、mpeg-1还是mpeg-2,都是以dct矩形变换块为变换编码单元,对dct块内图像的亮度和色度进行特征取样,提取像素;采用帧间编码、运动估测技术,在参考帧帧内dct编码的基础上,对dct块内图像的像素特征进行差值预测编码。基于矩形dct编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证质量),但未考虑视频信息--图像内容本身的含义和重要性,以及视频信息应用者的主观需求(比如部分内容的提取功能)。另外,这种基?quot;块"的压缩算法在低码率时容易产生"方块效应"和"抽帧",大大缩小了视频信息的应用领域。小波变换是一种新的变换编码方法,它与dct变换相比,考虑到了视频信号对不同应用环境的自适应性(不同的清晰度与比特率),可以将基础图像层与增强图像层分离编码传输,用户可根据实际情况选择是否打开增强图像层。但无论用户选择是或否,被传送的视频信息却都是一样的。二、 基于内容对象的编码1、 vo与vop概念的引入传统的视频编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割,而这与人类对视觉信息的判别法则,也就是大脑对视神经导入的视觉信号的处理方法是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体--视频对象vo(video objects)区分开,独立编码传送,将图像序列中的每一帧,看成是由不同的vo加上活动的背景所组成。vo可以是人或物,也可以是计算机生成的2d或3d图形。vo具有音频属性,其属性赋值可能?quot;有"或者是"无"。但音频的具体内容数据是独立于视频编码、传输的。vo概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性,使得更广泛的视频应用和更多的内容交互功能成为可能。现代图像编码理论指出,人眼捕获图像信息的本质是"轮廓-纹理",即人眼感兴趣的是vo的一些表面特性,如形状、运动、纹理等。vo的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面的组合的连续运动,这些剖面的组合称为视频对象面vop(video object profile)。vop描述了vo在一定视角条件下的表面特性。vop的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。vop纹理编码和运动的预测、补偿在原理上同mpeg-2基本一致,而形状编码技术则是首次应用在图像编码领域。2、新的编码技术合成vo的独立编码 在以前,2d或3d动画被看作是视频的一部分,并一概以视频的方法来处理。实际上,根据合成vo的合成机理和特性,大部分合成vo都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成vo将被视为一种独立于视频的数据类型来编码,并定义了其描述框架、通用的数据流结构和灵活的接口。而复杂性合成vo和自然vo的编码方法,将采用以下的编码方法。基于矩形窗口的vop分割 考虑到与现有标准的兼容,目前已得到应用的vo编码技术,比如mpeg4,仍采用了基于矩形窗口的内容分割法。编码时,首先利用像素特征统计,将每一个vop都限定在一个矩形窗口内,称之为vop窗口(vop window),取窗的原则为:长、宽均为16像素的整数倍(便于对现有标准的兼容和将来的扩展),同时保证vop窗口中非vop的宏块数目最少。目前标准中的视频帧可认为是一个无vop的特例,在编码过程中将形状编码模块屏蔽掉就可以了。在一个vop窗口内,vop剖面的形状也是采用8×8像素的矩形形状。针对不同的vop,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变的vop帧频(即vop刷新频率)。矩形窗口分割法并不能体现vop的具体形状信息。为了确认采用矩形窗口分割法的vop的形状信息,就引入了形状编码技术。形状编码其实并不是什么新技术,它在计算机图形学、计算机视觉领域早有应用。而目前的视频编码标准中的位图技术其实就是形状编码的简**例。位图采用矩阵的形式来表示二值(0或1)的形状信息,具有较高的编码效率和较低的运算复杂度。vop的形状信息有两类:边缘信息和灰度信息。边缘信息用0、1来表示vop的形状,0表示非vop区域,1表示vop区域。对于包含一定透明度的vop区域,可以用灰度信息(取值0~255之间)来表示透明程度,其中0表示完全透明,255表示完全不透明。对于模糊边缘部分,可将其视为灰度信息从周围已知vop区域的灰度值向0值的过渡区域,采用内插法确定其形状信息。基于小波变换的vop分割 基于矩形窗口的vop分割依旧存在"块效应"问题,而基于小波变换的vop分割则可以很好的解决这个问题,而且由于这种分割方法的本身就包含了vop的形状信息,所以无需另对形状信息进行判别与编码。基于小波变换的vop分割方法是目前最为活跃的视频编码课题研究领域,各种算法不断的被发表,但基本上可以划分为两类方法:1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量是集中在低频子带图像上,即大面积的平均灰度区域信息主要在低频子带图像中体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的vop从低频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个vop的边缘信息。利用图像灰度特征分割的小波变换,是沿扫描方向的单方向变换。2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的,比如对一帧画面进行垂直方向或对角线方向的小波变换。经过多种小波变换后可得到不同方向的各子带图像,它们各自蕴涵着不同纹理的局部频谱信息和纹理走向等信息。对具有相同频谱特征的图像局部进行聚类分析,并根据纹理频谱和纹理走向确定该聚类的纹理边缘。根据信息论原理和运动估测,将运动矢量具有相关性的聚类二次归类于不同的对象(即vop),并影射成不同灰度显示。多级小波变换的结果最多可线性的影射成0~255灰度级显示。进行小波变换的方向越多,各方向的夹角越小,图像分割也就越准确,但计算量也随之迅速膨胀。根据局域纹理中心频率的变化自适应地选择小波变换的级数(几个方向的变换)和方向,有助于在图像分割的准确性和计算量之间达到平衡。正如本文前面所述,人眼捕获图像信息的本质?quot;轮廓-纹理",故基于多方向小波变换的提取图像特征、分割纹理图像的方法符合人眼视觉生理的特点,是纹理图像分析的重要发展方向。无论是哪一种方法,当得到不同vop的不同灰度表示之后,通过类似于键技术的多通道处理,即可得到多个原始的彩色vop。目前实验表明,基于小波变换的图像分割在边界上仍有些模糊,但总体效果还是相当满意的,达到了分割纹理图像的目的。vop运动信息编码和运动补偿 人眼在观看图像时,会自动跟踪人所感兴趣的vop。即人看的不是时间轴上的信息,而是vop的运动轨迹---光流轴上的信息。光流轴是vop上的一点在活动图像上的运动轨迹,它在不同的帧中位于不同的空间位置,其意义在于:vop自身的各种变化都将映射于光流轴上的一点。光流轴信息的独立编码将带来诸多好处:(1)在编码时,对于刚性vop,由于它在运动中不会发生形状和纹理上的变化,故该vop只需要完成一次采样、编码,而后就只需发出几个运动矢量指明它的光流轴即可;对于非刚性vop,只需在发生变化时才需要重新采样、编码,这就使得不同的vop采用不同的vop帧频成为可能,将编码的数据率最低限度的降低。(2)vop在运动中的各种变化都将"留迹"于光流轴,当在进行运动补偿时,比如不同制式之间的转换或者慢动作的制作,就可以根据光流轴映射信息,采用内插法得出时间轴上某一确定点的vop状态,达到无损转换的目的。(3)在时间轴上,简单的将一个图像序列的两路信号叠加,随即噪波和图像的活动部分都得不到增强;若在光流轴上进行信号叠加,活动图像的降噪问题就得到了简单解决。vop的运动估测是指:分析两个或更多帧上的vop,确定光流轴,以判断下一帧中vop可能出现的位置。vop的运动补偿是指:根据vop光流轴的取向和光流轴上vop自身变化得映射信息,矫正vop在时间轴上的运动矢量。运动预测和运动补偿技术可以去除图像信息中的时间冗余成分,vop的运动信息编码可视为从像素向任意形状的vop的延伸。纹理编码 在已得到实际应用的mpeg-4中,vop的纹理编码基本上仍采用基于8×8像素块的dct方法,有3种模式:帧内编码模式(i-vop)、帧间预测编码模式(p-vop)和帧间双向预测编码模式(b-vop)。编码时,对于完全位于vop内的像素块,则采用经典的dct方法;对于完全位于vop之外的像素块则不进行编码;对于部分在vop内,部分在vop外的像素块则首先采用图像填充技术来获取vop之外的像素值,之后再进行dct编码。依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(fdp)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种fdp,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(fap)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种fap能生成人脸的各种表情以及与声音同步的嘴唇活动等。这样的合成编码不仅可极大地提高编码效率(可获得1kbps的超低码率),而且为制作新的人脸等对象提供了方便。分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层vol(video object layer)的数据结构来实现。每一种分级编码都至少有2层vol,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的vop进行解码之前,必须先对基本层中相应的vop进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个vo(特别是运动的vo)的帧率,使其与其余区域相比更为平滑。三、 新的技术标准--mpeg 4首次采用vo编码技术的视频编码标准是由mpeg 4。mpeg 4于1999年年初正式成为国际标准(标准号为**o/iec 14496),在1999年12月的后继版本中增加了可变形、半透明视频对象及其工具的先进功能,它进一步提高了编码效率,并与第一版反向兼容。1、mpeg 4标准的构成1) dmif(the dellivery ** integration framework):多媒体传送整体框架协议。mpeg-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问题。2) **:定义了mpeg-4系统特殊的解码模式(sdm),要求特殊的缓冲区和实时模式。3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2d、3d动画和人面部表情动画等。5) 场景描述bifs(binary format for scene description):关于一组vo的时空结构关系的参数信息,主要描述了各vo在一具体背景下的相互关系与同步等问题,以及vo及其背景的知识产权保护等问题。bifs与vo对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑操作的关键:在解码之后和场景合成之前,用户可以通过对bifs参数的重新设置来对vo 进行多种编辑操作,如增减、缩放、平移,甚至一些特技效果。下面的表格反映了mpeg体系的部分技术指标。mpeg-4是高比率有损压缩(比如将一个9 gb的dvd视频压缩拷贝到只有700mb空间的cd-rom上),其图像质量始终无法与mpeg-2相比。当mpeg-4与mpeg-2的码率输出相同时,其质量仍稍逊于mpeg-2。同时,mpeg 4对硬件的要求也较高。事实上,我们注意到mpeg-4在保证令人满意的图像质量的情况下,更注重较低的数据率和灵活的交互功能。2、mpeg 4编码器mpeg 4编码简化原理图如图一。对于输入视频序列,通过分析确认n个视觉目的对象为编码对象,将其认定为n个vo(n=1,2,3…),对每一个vo编码后形成这个vo的vop数据流。vop的编码包括对运动(采用运动预测方法)及形状、纹理(采用变换编码方法)的编码。由于vop具有任意形状,因此要求编码方案可以处理形状(shape)和透明(transparency)信息,这就是与只能处理矩形帧序列的现有视频编码标准的根本区别。在mpeg-4中,矩形帧被认为是vop的一个特例,这时编码系统不用处理形状信息,退化为类似于mpeg-1、mpeg-2的传统编码系统,同时也实现了与现有标准的兼容。除去vo的其余图像部分--背景,仍采用传统的矩形dct变换编码;vo场景描述信息(vo自身信息,如vo对象的知识产权、和vo间的位置、逻辑关系等)也要进行编码,最后和vop流、背景一起送入mpeg 4帧复合器,生成mpeg 4流输出。需指出的是:在vo分割后,每一个vo都需要一个vop编码通道,在图一中只画出了一个。多个vop帧发生器的输出在mpeg 4帧复合器中可实现灵活地多路复用编码或同步并行传输编码,以适应各种传输环境和要求。mpeg 4解码是以上编码过程的逆过程。可以看出,独立于背景的vo编码可以实现接收端的用户对vo对象进行选择性地操作。3、mpeg 4视频编码功能与特点mpeg 4标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体通信的综合。即mpeg-4遵循灵活的编码工具框架体系,设计了一个开放的编码系统,对于不同的应用采用不同的编码算法,以达到低比特率通信的目标。mpeg-4**是可编程的,相应的解码信息可与内容本身一起传输下载。与现有的mpeg-1和mpeg-2视频压缩相比,mpeg-4视频有一些重要的改进:1)基于内容的交互功能: mpeg-4提供了全新的交互方式,根据制作者的具体自由度设计,在有限的时间内可实现对多媒体vo的时域随机存取(从不同的源获取内容或向不同的源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清除。2)支持自然及合成信息的混合编码(nhc:synthetic and natural hybrid coding):mpeg-4支持合成信息的编码,可对合成的vo及其活动信息进行参数化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。3)高效编码:包括视频vo数据的高效编码和多个并发数据的有效同步编码。4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据率大小及重建的图像质量上。5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层是vlbv核心(vlbv:very low bit rate video),它为最低达5-64kbits/s视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352×288像素)和较低的帧频(低于15hz)。vlbv核心功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。mpeg-4的hbv(hbv: high bit rate video,范围在64kbits/s-4mbits/s之间)同样支持上述功能,但它同时还支持较高的空间与时间分辨率。其输入可以是it** 601的标准信号,因此其典型应用为数字电视广播与交互式检索。与mpeg-1和mpeg-2相比,mpeg-4的特点是其更适于交互式**服务以及远程监控。mpeg-4是第一个允许用户端操作的的视频编码标准。mpeg 4的特点非常适合于互联网上的交互式影视服务:可适应各种应用终端的物理网络环境,可实现对视音频内容的交互操作,具有下载解码能力(在一定的硬件基础上,可下载解码工具,对不同编码方式的内容进行解码处理)。mpeg-4的设计目标还有更广的适应性和可扩展性:因特网多媒体应用、交互式视频游戏、实时可视通信、交互式存储媒体应用、广播电视、演播室技术及电视后期制作、多媒体内容存储和检索、采用面部动画技术的虚拟会议、多媒体邮件、移动通信条件下的多媒体应用、可视化合作实验室场景应用、**监控、通过atm网络等进行的远程数据库业务等等。从矩形帧到vop,mpeg-4顺应了现代图像压缩编码的发展潮流,即从基于dct的传统编码向基于对象和内容的现代编码的转变。从这个意义上讲,mpeg-4视频编码技术翻开了图像编码史上崭新的一页。四、 mpeg 4视频产品在2001 nab会展上,多家公司推出了他们的mpeg 4产品。amn**公司推出了基于ip**的mpeg4视频流技术,展示了可以重放mpeg1, mpeg2和mpeg4的桌面软件。envivo 公司陈列了他们的应用于ip网络或mpeg2节目数据广播的mpeg4端到端解决方案。该方案是纯软件的,支持视频、音频和合成的2d动画的mpeg4方式编码,以及对mpeg 4文件的版权保护。optibase公司推出的mgw系列是一个插件式的多通道流服务器系列,可插入不同的编码模块以适应不同的需求,其中mgw 4000是支持mpeg4(兼容mpeg1和mpeg2)的流服务器。optibase还推出了支持多媒体和交互mpeg4流的ip实时编码、分配**。最后,optibase展示了从mpeg 1到mpeg 4的实时转码技术。philips 提供了一个从制作到重放的、端到端的网上mpeg-4解决方案:包括互动内容编辑器(支持网上mpeg-4视频流的搜索、剪辑和编辑)、实时软件mpeg-4编码器(甚至支持简单视频和aac音频的无线编码)、通用多点分配ip**和解码软件(webcine' player支持win95,win2000和nt操作系统;wince用于手提电脑;trimedia是一个网上广播机顶盒)。sun 公司也推出了他们的通用mpeg-4流服务器。微软在它现在的win98和win2000操作系统中也已加入了一个mpeg-4的播放器,叫做divx。它可以回放仍是以.**i为后缀的mpeg 4文件。divx可以附加到mpeg-4的数据流中,并可以进行设置以适应不同的使用要求。divx视频编码技术是由 microsoft mpeg4 v3 修改而来,使用mpeg 4压缩算法,打破了asf的种种协定。但mpeg4毕竟是一种高比率有损压缩,其图象质量始终无法和 dvd 的 mpeg2 相比,即便是在mpeg4码率和dvd码率差不多时,总体效果还是有距离(在杂乱的细节上稍有模糊)。所以目前的mpeg4 只能面向于娱乐和欣赏方面的市场。市场上的第一张divx-mpeg4格式的影碟《活火熔城》,长98分钟,采用512×288 16:9格式,帧频24帧/秒,64kb立体声音频。影片由720×480 16:9 30帧/秒的mpeg2制式转刻,刻在单张cd盘片上。六、结 尾在最后结束本文的时候,作者还想说一些与本文有关的阐述文字。由于工程实现与商机、市场的原因,我们所获得的工程技术成果经常是落后于科学家已经得心应手、并能信手拈来的实际的最前沿科技成果。mpeg-4标准即是多因素集合作用的结果,如果不考虑对已有产品的兼容,它还可以做得更好。vop编码方式是视频信号处理技术从数字化进入智能化得初探。另外,已vop技术为依托,也使得模式识别技术从对符号的识别进入到对图形识别的更新的领域。资料表明,此类研究已经更进一步的逼近人脑对视觉信息的处理方式。人类永远不停的在揭示自然界无穷奥妙的同时,也更深入的探索人类自身。 20210311