我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 帧内压缩 >

3-数字音频压缩及标准

归档日期:08-18       文本归类:帧内压缩      文章编辑:爱尚语录

  2010年秋北京信息科技大学 音频压缩概述 3.1 波形编码 3.2 参数编码 3.3 MPEG音频编码 3.5 G.7xx系列编码标准 3.6 混合编码 3.4 2010年秋 北京信息科技大学 了解音频压缩的可行性 掌握波形编码、参数编码和混合编码的 基本知识 熟悉MPEG音频标准 全面掌握音频压缩编解码技术。 2010年秋 北京信息科技大学 3.1.1 3.1.1 音频压缩的可行性 音频压缩的可行性 根据统计分析结果,音频信号中存在着多种冗 余,其主要部分可分别从时域和频域来考虑。 由于音频主要是给人听的,所以考虑人的听觉 机理,也能对音频信号实行压缩。 2010年秋 北京信息科技大学 幅度分布的非均匀性样值间的相关性 周期之间的相关性 基音之间的相关性 静止系数 长时自相关函数 2010年秋 北京信息科技大学 长时功率谱密度的非均匀性。语音特有的短时功率谱密度。 2010年秋 北京信息科技大学 掩蔽效应对不同频段的敏感性 对音频信号相位变化不敏感 2010年秋 北京信息科技大学 基于音频数据的统计特性进行编码,典 型技术是波形编码。 基于音频的声学参数,进行参数编码, 可进一步降低数据率。 基于人的听觉特性进行编码。 2010年秋 北京信息科技大学 时域编码、频域编码和统计编码。原理: 依据声音信号的冗余度以及人耳听觉的声掩 蔽,将人耳听觉觉察不到的分量去掉,降低 编码后的数据比特率。 2010年秋 北京信息科技大学 按解码后数据与原始数据是否完全一致、质量有无损失的标准 无损压缩编码(无失真) 有损压缩编码(有失线年秋 北京信息科技大学 统计编码波形编码 参数编码 混合编码 感知编码 2010年秋 北京信息科技大学 波形编码PCM 脉冲编码调制 公用电 G.71164kbit/s APCM 自适应脉冲编码调制 DPCM 差分脉冲编码调制 ADPCM 自适应DPCM G.721 32kbit/s SB-ADPCM 子带-自适应DPCM G.722 64kbit/s 参数编码 LPC 线kbit/s 保密话音 混合编码 CELPC 码激励LPC 4.6kbit/s 移动通信 VSELP 向量和激励LPC 8kbit/s RPE-LTP 规则码激励长时预测 13.2kbit/s 语音信箱 LD-CELP 低延时码激励LPC G.728 16kbit/s ISDN ACELP 自适应CELP G.723.1 5.3 kbit/s PSTN CSA-CELP 共轭结构代数-CELP G.729 8kbit/s 移动通信 感知编码 MPEG-音频 多子带,感知编码 128 kbit/s VCD/DVD DolbyAC-3 感知编码 DVD 表3-1 编码的分类及标准 2010年秋 北京信息科技大学 将时间域信号直接变换为数字代码由于保留了信号原始样值的细节变化,从而 保留了信号的各种过渡特征,所以解码音频 信号质量一般较高。 不足之处:传输码率比较高,压缩比不大。 2010年秋 北京信息科技大学 3.2.1 PulseCode Modulation,PCM,简称脉码 调制。 PCM是各种数字编码系统中最规范的方法,也是应用最广泛的系统。 除了增量调制外,各种波形编码器都包含有PCM的编码与译码部分。 2010年秋 北京信息科技大学 PCM是“数字化”的最基本的技术 通过抽样、量化和编码3个步骤,用若干代码表 示模拟形式的信息信号(如图像、声音信号), 再用脉冲信号表示这些代码来进行传输/存储。 2010年秋 北京信息科技大学 3.2.2 PCM编码是一种最通用的无压缩编码。优点:保真度高,解码速度快 缺点:编码后的数据量大。 CD-DA采用的就是这种编码方式。 若利用样值之间的相关性,即记录取样值之间的 差值,就称为差分PCM(DPCM)。DPCM方式 是非常适合自然界规律的。 2010年秋 北京信息科技大学 图3-7 DPCM编码 2010年秋 北京信息科技大学 图3-8 DPCM解码 2010年秋 北京信息科技大学 图3-9 PCM与DPCM的电平分布 2010年秋 北京信息科技大学 3.2.3 1.自适应PCM 自适应PCM(APCM):根据邻近信号的性 质使量化步长改变的编码。 准瞬时压扩和动态加重就可以看做是一种 APCM。 2010年秋 北京信息科技大学 图3-11 APCM组成框图 2010年秋 北京信息科技大学 DPCM码 正值011 010 001 000 1.75 1.25 0.9 0.9 负值 111 110 101 100 0.9 0.9 1.25 1.75 表3-2 3位APCM的系数法 2010年秋 北京信息科技大学 PCM把自适应型量化步长引入差分PCM (DPCM)。 不是把信号x(n)直接量化 而是把它和预测值x(n)的差d(n)进行量化 比前述的APCM效率高,中等质量的高效率编 2010年秋北京信息科技大学 应用:多功能电话机的留言录音等短时间录音 不同磁带的固体录音机和向导广播 自动售货机 多媒体技术应用领域的CD-I中,也采用4~8 位的ADPCM。 2010年秋 北京信息科技大学 图3-12 ADPCM原理框图 2010年秋 北京信息科技大学 APCMADPCM 0.6,2.20.8,1.6 0.85,1,1,1.50.9,0.9,1.25,1.75 0.8,0.8,0.8,0.8,1.2,1.6,2.0,2.4 0.9,0.9,0.9,0.9,1.2,1.6, 2.0,2.4 0.85,0.85,0.85,0.85,0.85,0.85,0.85,0.85, 1.2,1.4,1.6,1.8,2.0, 2.2,2.4,2.6 0.9,0.9,0.9,0.9,0.95, 0.95,0.95,0.95,1.2,1.5, 1.8,2.1,2.4,2.7,3.0,3.3 表3-3 自适应量化法中的量化级系数 2010年秋 北京信息科技大学 3.2.4 增量调制(ΔM) Delta Modulation 是用一位二进制码表示相邻模拟抽样值相对 大小的A/D转换方式 量化只限于正和负两个电平,只用一比特传 输一个样值。 ΔM是增量调制方式的代号。 2010年秋 北京信息科技大学 图3-13 简单增量调制原理图 图中x(t)是 一模拟信号, x′(t)为本地 译码器输出 的前一时刻 的量化信号。 2010年秋 北京信息科技大学 图3-14 M编码原理2010年秋 北京信息科技大学 =ΔT时间内均匀上升一个量阶,收到一个0码产生一个负的斜变电压,在 时间内均匀下降一个量阶这样把二进制代码经过译码后变为锯齿 2010年秋北京信息科技大学 传码率及信号带宽量化信噪比 误码信噪比 设备复杂性 2010年秋 北京信息科技大学 是一种改进型的增量调制方式它的量化级Δ随着音节时间间隔(5~20ms)中 信号平均斜率而变化。这里的音节相当于语音 浊音准周期信号的基音周期。 由于信号的平均斜率是根据检测码流中连“1” 或连“0”的个数确定的,所以又称数字检测、 连续可变斜率增量调制(CVSD),简称数字压 扩增量调制。 2010年秋 北京信息科技大学 图3-15 数字检测音节压扩Δ M组成框图 2010年秋 北京信息科技大学 自适应ΔM与简单ΔM相比,编码器能正常工作的动态范围有很大提高,信噪比比简单ΔM优 这种优越性与两个参数有关,数字检测的连码数m,其值越大,改善越大; 脉冲压缩比σ=Δ0/Δmax,其中Δmax为最大量化级, Δ0是最小量化级(无控制的),σ越小改善越大。 2010年秋 北京信息科技大学 3.2.5 SBC 是将一个短周期内的连续时间取样信号 送入滤波器中,滤波器组将信号分成多 个(最多32个)限带信号,以近似人耳 的临界频段响应。 2010年秋 北京信息科技大学 由滤波器组的锐截止频率来仿效临界频段响应, 并在带宽内限制量化噪声。 子带编码要求处理延迟必须足够小,以使量化 噪声不超出人耳的瞬时限制。 子带编码通过分析每个子带的取样值并与心理 声学模型进行比较,编码器基于每个子带的掩 蔽阈值能自适应地量化取样值。 2010年秋 北京信息科技大学 子带编码中,每个子带都要根据所分配的不同 比特数来独立进行编码。 在任何情况下,每个子带的量化噪声都会增加。 当重建信号时,每个子带的量化噪声被限制在 由于每个子带的信号会对噪声进行掩蔽,所以子带内的量化噪声是可以容忍的。 3.2.5 3.2.5 子带编码 子带编码 2010年秋 北京信息科技大学 图3-16 生成窄带高分辨率的子带编码 2010年秋 北京信息科技大学 子带编码的主要特点: 每个子带对每一块新的数据都要重新计算,并 根据信号和噪声的可听度对取样值进行动态量 子带感知编码器利用数字滤波器组将短时的音频信号分成多个子带(对于时间取样值可以采 用多种优化编码方法)。 3.2.5 3.2.5 子带编码 子带编码 2010年秋 北京信息科技大学 子带编码的主要特点: 每个子带的峰值功率与掩蔽级的比率由所做的 运算来决定,即根据信号振幅高于可听曲线的 程度来分配量化所需的比特数。 给每一个子带分配足够的位数来保证量化噪声 处于掩蔽级以下。 3.2.5 3.2.5 子带编码 子带编码 2010年秋 北京信息科技大学 图3-17 SB-ADPCM编、译码方框图 2010年秋 北京信息科技大学 3.2.6 标量量化(SQ) 独立地对一个样值量化编码的方式。 由于对每一个样值单独编码处理,使系统码率 不可能低于取样频率。 矢量量化(VQ) 对若干个音频样值一起量化编码 2010年秋 北京信息科技大学 图3-18 VQ的基本原理 2010年秋 北京信息科技大学 图3-19 最优码字搜索算法一例 2010年秋 北京信息科技大学 参数编码技术以语音信号产生的数学模型为基础,根据输入语音信号分析出表征声门振动的 激励参数和表征声道特性的声道参数,然后在 解码端根据这些模型参数来恢复语音。 这种编码算法并不忠实地反映输入语音的原始波形,而是着眼于人耳的听觉特性,确保解码 语音的可懂度和清晰度。 2010年秋 北京信息科技大学 基于参数编码技术的编码系统一般称之为声码器,主要用在窄带信道上提供4.8kbit/s以下的低速率语 音通信和一些对时延要求较宽的场合。 当前参数编码技术主要的研究方向是线性预测 (Linear Predictive Coder,LPC)声码器和余弦声 2010年秋北京信息科技大学 3.3.1 语音学和医学的研究结果表明,人类发音器官产生声音的过程可以用一个数学模型来逼近。 人的语音发声过程是:气流从肺呼出后经过声门时受声 带作用,形成激励气流,再经过由口腔、鼻腔和嘴组成 的声道的作用而发出语音。 从声门出来的气流相当于激励信号,而声道可以等效成 一个全极点滤波器,称为声道滤波器或合成滤波器。 在讲话过程中激励信号和滤波器系数不断地变化,从而 发出不同的声音。 2010年秋 北京信息科技大学 通常认为激励信号和滤波器系数5~40ms更新一次。 人们在发声母时,声带不振动,激励信号类似白噪声, 将这类声音称做清音; 发韵母时,声带振动,激励信号呈周期性,这类声音称 作浊音。 因此,用白噪声或周期性脉冲信号激励声道滤波器就能合成出语音,这就是LPC声码器的工作原理 2010年秋 北京信息科技大学 这个模型的物理含义是:人类通过嘴讲出来的话,也可以用它来再生,条件是要 合理地选择模型中的参数。 很显然,讲话随着时间而变化,那么,模型的参数也是 变化的。 此模型用模型参数代替原语音波形进行传输/存储的系统 就是声码器。 对该发声模型的参数进行编码传输称为参数编码。 人的发声是很复杂的,上面的模型只是一种近似,忽略了不少因素,这个模型也叫简化发声模型 它合成出的语音质量不高,后来又有许多改进。2010年秋 北京信息科技大学 图3-20 人类发音模型 2010年秋 北京信息科技大学 3.3.2 线性预测编码(LPC)是一种非常重要的编码方法线性预测方法在于分析和模拟人的发音器官,不是利用 人发出声音的波形合成,而是从人的语音信号中提取与 语音模型有关的特征参数。 在语音合成过程中,通过相应的数学模型计算去控制相 应的参数来合成语音,这种方法对语音信息的压缩是很 有效的,用此方法压缩的语音数据所占用的存储空间只 有波形编码的十至几十分之一。 2010年秋 北京信息科技大学 LPC声码器是一种低比特率和传输有限个语音参数的语音编码器,它较好地解决了传输数 码率与所得到的语音质量之间的矛盾。 广泛地应用在电话通信、语音通信自动装置、语音学及医学研究、机械操作、自动翻译、身 份鉴别、盲人阅读等方面。 3.3.2 3.3.2 线性预测编码 线年秋 北京信息科技大学 线性预测(LPC)声码器在众多的声码器 中是最为成功的,也是应用最为广泛的 属于时间域声码器类。 从时间波形中提取重要的语音特征。 3.3.2 3.3.2 线性预测编码 线年秋 北京信息科技大学 图3-21 LPC声码器的原理图 2010年秋 北京信息科技大学 是波形编码和参数编码的综合: 既利用了语音生成模型,通过模型中的参数(主要是声道 参数)进行编码,减少波形编码中被编码对象的动态范围 或数目; 又使编码的过程,产生接近原始语音波形的合成语音,保 留说话人的各种自然特征,提高了合成语音质量。 目前得到广泛研究和应用的CELP编码法,以及它 的各种改进算法,是混合编码法的典型代表。 2010年秋 北京信息科技大学 分析/合成(A/S)编码 编码的过程是一个分析加合成的过程 即编码系统大都是先“分析”输入语音提取 发声模型中的声道模型参数,然后选择激励 信号去激励声道模型产生“合成”语音,通 过比较合成语音与原始语音的差别选择最佳 激励,追求最逼近原始语音的效果。 2010年秋 北京信息科技大学 图3-22 分析—合成编码原理框图 2010年秋 北京信息科技大学 3.4.1 语音模型中的激励信号,可以从分析A/S 编码系统产生的预测误差来获得。 这个预测误差序列可由大约只占其个数十分之一的另一组脉冲序列来替代,由 新脉冲序列激励H(z)产生的合成语音仍 具有较好的听觉质量。 2010年秋 北京信息科技大学 这个预测误差序列,尽管在大多数位置上都不等 于零,但它激励合成滤波器所得的合成语音,与 另一组绝大多数位置上都是零的脉冲序列,激励 同样的合成滤波器所得的合成语音具有类似的听 由于后者形成的激励信号序列,不为零的脉冲个数占序列总长的极小部分,所以编码时,仅处理 和传输不为零的激励脉冲的位置与幅度参数,就 可以大大压缩码率了。 这种编码方法称为多脉冲线性预测编码 (MPLPC)。 2010年秋 北京信息科技大学 MPLPC主要任务就是寻找该脉冲序列中 每个脉冲的位置和幅度大小,并对其编 一般采用序贯方法,一个一个脉冲求解,寻求次优的解。 2010年秋 北京信息科技大学 图3-23 MPLPC编码原理框图 2010年秋 北京信息科技大学 3.4.2 RPE/LTP是欧洲数字蜂窝移动通信GSM标准中采用 的语音压缩编码算法 标准码率为13kbit/s,也叫移动通信的全速 率编码标准。 2010年秋 北京信息科技大学 人们为进一步提高信道利用率,正在制定 码率为6~7kbit/s、与RPE/LTP方案相当 的语音压缩编码标准。 新方案称为移动通信中的半速率语音编码 算法。 2010年秋 北京信息科技大学 RPE/LTP语音压缩编码属于分析/合成编码方式,系统先 分析,得到合成滤波器参数,再通过选择不同激励,判 别它们的合成语音与原始语音的差别,得到最优的激励 的信号。 RPE/LTP采用了感觉加权滤波器。 PRE/LTP的各个非零激励脉冲,呈现等间隔的规则排列。 只需使收方知道第一个脉冲的位置在何处(n取什么值), 其他激励脉冲的位置也就可以得知了。 而且第一个脉冲的位置也是有限的几个可能性。 所以这种方案,脉冲位置的编码所需码率非常少,非零 激励脉冲个数可以增加许多。 在一个编码帧内,GSM方案的非零激励脉冲比MPLPC方 案多了3倍,有利于提高合成语音质量。 2010年秋 北京信息科技大学 RPE/LTP编码算法设置了基音预测系统 以及相应的基音合成系统。 线性预测处理语音信号可以去除语音信 号样值间的相关性,大大降低信号的动 态范围。 3.4.2 3.4.2 规则脉冲激励 规则脉冲激励//长项预测编码 长项预测编码 2010年秋 北京信息科技大学 图3-24 预测误差波形 2010年秋 北京信息科技大学 图3-25 GSM语音压缩编解码器中的语音生成模型 2010年秋 北京信息科技大学 3.4.3 码激励线性预测编码(CELP)系统是中低速率编码领域最成功的方案。 基本CELP算法不对预测误差序列个数及位置作任何强制假设,认为必须用全部误差序列编码传送以获得 高质量的合成语音。 为了达到压低传码率的目的,对误差序列的编码采用了大压缩比的矢量量化技术VQ,也就是对误差序列不 是一个一个样值分别量化,而是将一段误差序列当做 一个矢量进行整体量化。 2010年秋 北京信息科技大学 由于误差序列对应着语音生成模型的激励部分,现在经VQ量化后,用码字代替,故称码激励。 图3-26 典型的CELP系统 2010年秋 北京信息科技大学 图3-27 采用两个码本CELP编码系统 2010年秋 北京信息科技大学 基于CELP的LD-CELP方案,已作为干线kbit/s速率编码标准。 与CELP基本算法相比较,它的主要不同有如下两个方面。 2010年秋 北京信息科技大学 (1)它不是从输入语音中提取合成滤波 器参数的,而是从以前的合成语音中提取 的,这样不必等待一段语音输入后再进行 计算,所以编码时延很低,故名低时延编 码系统。并且,由于预测和合成系统的系 数取决于合成后的语音而非原始语音,因 此,合成系统系数不必编码传送。 2010年秋 北京信息科技大学 (2)考虑到用前面部分的合成语音,来 估计本时刻的合成系统参数,可能会估计 精度差,降低线性预测效果,为了提高预 测性能,G.728标准中采用了一个高达50阶 的线性预测滤波器,代替一般CELP系统 中的基音和声道两个预测滤波器,合成滤 波器同样也是50阶的。提高滤波器阶数, 只是增加了计算量,因为滤波器系数不传 送,所以不增加传码率。 2010年秋 北京信息科技大学 3.4.4 矢量和激励线性预测编码(VSELP)作 为北美第一代数字蜂窝移动通信网语音编 码标准由Motorola公司首先提出,其码率 为8kbit/s。 图3-28是VSELP编码系统结构图。 2010年秋 北京信息科技大学 图3-28 VSELP编码系统 2010年秋 北京信息科技大学 3.4.5 语音短时谱分析表明,大多数语音段都含有周期和非周期两种成分,因此很 难说某段语音是清音还是浊音。 传统声码器,例如线性预测声码器,采用二元模型,认为语音段不是浊音就是 清音。 2010年秋 北京信息科技大学 浊音段采用周期信号,清音采用白噪声激励声道滤波器合成语音,这种语音 生成模型不符合实际语音特点。 人耳听觉过程是对语音信号进行短时谱分析的过程,可以认为人耳能够分辨 短时谱中的噪声区和周期区。 2010年秋 北京信息科技大学 因此,传统声码器合成的语音听起来合成声重、自然度差。 这类声码器还有其他一些弱点,例如基音周期参数提取不准确、语音发声模 型同有些音不符合、容忍环境噪声能力差 等,这些都是影响合成语音质量的因素。 2010年秋 北京信息科技大学 多带激励语音编码(MBE)方案突破了传统线性预测声码器整带二元激励模型, 它将语音谱按基音谐波频率分成若干个带, 对各带信号分别判断是属于浊音还是属于 清音,然后根据各带清、浊音的情况,分 别采用白噪声或正弦产生合成信号,最后 将各带信号相加,形成全带合成语音。 2010年秋 北京信息科技大学 图3-29 多带激励编解码器原理框图 2010年秋 北京信息科技大学 3.4.6 混合激励线性预测编码(MELP)算法对 语音的模式进行两级分类。 首先将语音分为“清”和“浊”两大类,这 里的清音是指不具有周期成分的强清音,其 余的均划为浊音,用总的清/浊音判决表示。 其次,把浊音再分为浊音和抖动浊音,用非 周期位表示。 2010年秋 北京信息科技大学 在对浊音和抖动浊音的处理上,MELP算法利用了MBE算 法的分带思想,在各子带上对混合比例进行控制。 这种方法简单有效,使用的比特数也不多。 如果使用1bit对每个子带的混合比例参数进行编码,该参 数也就简化为每个子带的清/浊音判决信息。 在周期脉冲信号源的合成上,MELP算法要对LPC分析的 残差信号进行傅里叶变换,提取谐波分量,量化后传到接 收端,用于合成周期脉冲激励。 3.4.6 3.4.6 混合激励线性预测编码 混合激励线年秋 北京信息科技大学 MELP的参数包括LPC参数、基音周期、模式分类参数、分带混合比例、残差谐波参数和增益。 在MELP的参数分析部分,语音信号输入后要分别进行基音提取、子带分析、LPC分析和残差谐 波谱计算。 MELP算法的语音合成部分仍然采取LPC合成的形式,不同的是激励信号的合成方式和后处理。 3.4.6 3.4.6 混合激励线性预测编码 混合激励线年秋 北京信息科技大学 脉冲激励通过对残差谐波谱进行离散傅里叶反变换得出,噪声激励则在对一个白噪声源进行电平调整和限幅之后产生, 两者各自滤波后叠加在一起形成混合激励。 混合激励信号合成后经自适应谱增强滤波器处理,用于改善共振峰的形状。 随后,激励信号进行LPC合成得到合成语音。3.4.6 3.4.6 混合激励线性预测编码 混合激励线年秋 北京信息科技大学 图3-30 MELP算法的分析/合成框图 2010年秋 北京信息科技大学 当前国际上数字音视频标准有两个系列 MPEG音频:声音信源编码中的MPEG (Moving Picture Exports Group,活动图像专家 组)制定的音频编码 Dolby AC-3音频编码:ATSC(Advanced Television System Committee,先进电视系统委员 会)制定。 2010年秋 北京信息科技大学 MPEG音频的应用所涉及的领域广泛, 不仅用于数字电视、数字声广播,还有影 音光盘、多媒体应用以及网络服务等,因 此是主流。 Dolby AC-3则仅用于多声道环绕立体声 重放,包括DVD影音光盘及ATSC数字电 视标准中的音频编码。 2010年秋 北京信息科技大学 MPEG是一组由IEC和ISO制定发布的视 频、音频、数据的压缩标准。 MPEG的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特 性,而是利用人的听觉系统的特性来达到 压缩声音数据的目的,属于感知编码。 已成为数字音视频的主流技术。 3.5 MPEG 3.5 MPEG音频编码 音频编码 2010年秋 北京信息科技大学 MPEG采纳两种感知编码, 感知子带编码 由杜比(Dolby Laboratories)实验室开发的 Dolby AC-3(Audio Codenumber3)编码, 简称AC-3。 3.5 MPEG 3.5 MPEG音频编码 音频编码 2010年秋 北京信息科技大学 3.5.1 MPEG-1 国际标准化组织和国际电子技术委员会组织活动图 像专家组于1992年11月通过了关于音频和视频数据 的压缩技术的ISO/IEC 11 172号建议。 “用于数字存储媒体运动图像及其伴音率为 1.5Mbit/s的压缩编码”,简称MPEG-1,它主要由 系统、视频和音频3个部分组成。 2010年秋 北京信息科技大学 MPEG-1音频编码标准位于MPEG-1(ISO/IEC 11172)标准的第3部分 MPEG-l音频标准的基础是掩蔽模式通用子带 集成编码、多路复用MUSICAM、自适应频率 感知熵编码ASPEC。 2010年秋 北京信息科技大学 直接播放数据传输率为1.5Mbit/s的CD-ROM。记录载体为光盘和磁存储介质(包括磁带、磁盘)的非交 错音视频格式的数据,以支持与VHS质量相当的影音光盘 (Video Compact Disc,VCD),其声音有一路立体声输 出或两个声道分别存储原唱和伴唱。 用于数字声音广播(DAB)的源编码。 用于低比特率的音频传输的应用,如ISDN宽带网传输。 特别是目前在因特网上盛行的MP3(MPEG Layer) 2010年秋 北京信息科技大学 支持采样频率为32kHz、44.1kHz、48kHz的单/双声道及立体声等编码模式;利用以掩蔽效应 为基础的心理声学模型控制声音的量化/编码达 到不低于32kbit/s比特率的数据流。 三个不同层次的心理声学模型算法,分别为层I、 层和层对应着不同的比特率,编码器的复 杂程度随之加深。 2010年秋 北京信息科技大学 层I又称MP1音频,声音文件扩展名为 “.mp1”或“.mpa”。 采用MUSICAM编码方案的简化算法,复杂度 最低,压缩比41(相对CD激光唱片音频比特 压缩后的比特率约为32~448kbit/s,典型的码流为192kbit/s适用于小型数字盒式磁带。 2010年秋 北京信息科技大学 层又称MP2音频,声音文件扩展名为“.mp2”或 “.mpa”。 算法较层I复杂,去除了更多的冗余度,压缩比为61, 压缩后的比特率预计为32~384kbit/s,典型的码流为 128kbit/s。 层称为掩蔽模式通用子带集成编码与多路复用,广泛应 用于数字音频广播、数字演播室等数字音频专业的制作、 交流、存储和传送。 2.主要特点.主要特点 2010年秋 北京信息科技大学 层又称MP3音频,声音文件扩展名为“.mp3”或 “.mpa”。 算法最为复杂,压缩比12l(相对CD激光唱片音频比特 率),压缩后的比特率约为32~320kbit/s,典型的码流为 64kbit/s。 层是综合于层和ASPEC(自适应频谱心理声学熵编 码)的优点提出的混合压缩技术,主要用于ISDN上的声 音传输。 22.主要特点 .主要特点 2010年秋 北京信息科技大学 MPEG-1MPEG-1音频信号数据压缩过程 时间/频率映射(滤波器组),用以将输入的 信号转化为亚抽样的频谱分量分为子带; 频域滤波器组或并行变换的输出,根据心理声 学模型求出时变的掩蔽门限估值; 按量化噪声不超过掩蔽门限的原则将子带量化 编码以使量化噪声听不到; 按帧打包成码流(包括比特分配信息)。 2010年秋 北京信息科技大学 图3-31 MPEG-1的音频压缩编码框图 图3-32 MPEG-1的音频压缩解码框图 2010年秋 北京信息科技大学 图3-33 子带编码滤波器组的划分示意图 2010年秋 北京信息科技大学 3.5.2 MPEG-2 MPEG-2(ISO/IEC13 818)标准公布于 1995年,是MPEG-1的一种兼容型扩展。 MPEG-2声音编码标准是MPEG为多声道声音开发的低码率编码方案,是在MPEG- 1标准的基础上发展而来的。 2010年秋 北京信息科技大学 和MPEG-1相比,MPEG-2声音主要增加了以下3个方面的内容。 支持5.1路环绕声。能提供5个全带宽声道(左、右、 中和两个环绕声道),外加一个低频效果增强声道, 统称为5.1声道。 支持多达8种语言或解说。 增加了低抽样和低码率。即把MPEG-1的抽样率降低 了一半(16kHz,22.05kHz,24kHz),以便提高码 率低于64kbit/s时每个声道的声音质量。 2010年秋 北京信息科技大学 MPEG-2标准委员会定义了两种声音数据压 缩格式 MPEG-2 Audio,或者称为MPEG-2多通道声音, 由于它与MPEG-1是兼容的,因此常称为MPEG- BC。MPEG-2 AAC(Advanced Audio Coding),因 为它与MPEG-1声音格式不兼容,所以称为非后 向兼容MPEG-2 NBC标准。 3.5.2 MPEG 3.5.2 MPEG--22音频 音频 2010年秋 北京信息科技大学 主要特点: MPEG-2 BC分为3层,相应的预计达到的比特率分 别为:层I,32~256kbit/s;层和层,8~ 160kbit/s。 MPEG-2 AAC采用了MPEG-1层(MP3)同样 的基本编码模式,仅在一些细节上增加新的编码工 兼容性强3.5.2 MPEG 3.5.2 MPEG--22音频 音频 2010年秋 北京信息科技大学 兼容性强 MPEG-2 BC的多通道兼容性。MPEG-2数据流格式的 基本内容与MPEG-1等同,解码器完全兼容于MPEG-1 编码器 MPEG-1解码器也能接收到MPEG-2 BC的音频数据流 中的全部通道信息,这是因为MPEG-2 BC的向下混合 左右声道的兼容性矩阵的作用。 由于MPEG-l和MPEG-2 BC音视频的合成处理遵循着 MPEG标准的系统规范,所以MPEG-l音频可以与 MPEG-2视频合成使用;MPEG-2 BC音频也可与 MPEG-1的视频合成使用。 MPEG-2 AAC可替代MPEG-1层(MP3)。 2010年秋 北京信息科技大学 MPEG-2Audio MPEG-2主要用于数字电视。 适用于数据比特率从8kbit/s的单声道电线kbit/s的多声道高质量的全音 域音频编码。 也适用于DVD,图像清晰度可达到500线路立体声声道和高质量的5.1声道 环绕立体声。 2010年秋 北京信息科技大学 图3-35 MPEG-2声音多声道扩展部分的数据结构 2010年秋 北京信息科技大学 LinemPCM DolbyAC-3 MPEG-2 Audio MPEG-1 Audio 抽样频率 48/96kHz 32/44.1/48kHz 16/22.05/24/32/44. 1/48kHz 32/44.1/48kH 样本精度(每个样本的比特 16/20/24压缩(16 bit) 压缩(16 bit) 16 最大数据传输 6.144Mbit/s 448kbit/s 8~640kbit/s 32~448kbit/s 最大声道数 5.15.1/7.1 表3-4MPEG-1和MPEG-2的声音数据规格 2010年秋 北京信息科技大学 图3-36 声道立体环绕声扬声器摆放示意图 2010年秋 北京信息科技大学 图3-37 MPEG-2中5.1声道编、解码电路框图 2010年秋 北京信息科技大学 MPEG-2AAC MPEG-2AAC是MPEG-2标准中一种非常灵活的声音感知 编码标准。 AAC支持的采样频率可从8kHz到96kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。 AAC标准可支持48个主声道、16个低频音效(LFE)加强通道、16个配音声道或称多语言声道和16个数据流。 AAC在压缩比为111(即每个声道的数据率为(44.116)/11=64kbit/s)而声道的总数据率为320kbit/s的情况下,很 难区分还原后的声音与原始声音之间的差别。 2010年秋 北京信息科技大学 与MPEG的层2相比,MPEG-2 AAC的 压缩率可提高1倍,而且质量更高。 与MPEG的层3相比,在质量相同的条件 下数据率是其70%。图3-38所示是ACC 编码器方框图。 2010年秋 北京信息科技大学 图3-38 MPEG-2 AAC编码器 2010年秋 北京信息科技大学 MPEG-1及MPEG-2标准为图像和伴音, 或者说为广播电视领域的数字化奠定基 础,但满足不了迅速发展的多媒体应用 的要求。 在1993年开始了能够实现数字电视的制 作、分配和内容的融合、交互式图形应 用以及交互式多媒体的标准制定。 2010年秋 北京信息科技大学 3.5.3 MPEG-4 MPEG-4是以“各种音/视频媒体对象的编 码”为标题。 MPEG-4第一版于1998年12月成为一项通 用的国际标准(ISO/IEC 14 496IV);第 二版于1999年12月完成;第三、四版于 2001年开始制定。 2010年秋 北京信息科技大学 MPEG-4的宗旨:避免出现众多的、专有的、互不兼容的格式和播放 机的方法 提供一整套能够满足,包括实时通信、监视和移动 多媒体等大量应用的要求。 MPEG-4定为通信和中、短波波段数字声广播以及其他语音低比特率的应用。 3.5.3 MPEG 3.5.3 MPEG--44音频 音频 2010年秋 北京信息科技大学 主要特点: 为获取到所有比特率下的高音质,MPEG-4音频定义了3类编码模式: 低比特率的参数化编/解码器。抽样频率8kHz时数据 比特率为2~4kbit/s;抽样频率8/16kHz时为4~ 16kbit/s。 中间比特率的码激励线性预测(CELP)编/解码器。 抽样频率8/16kHz,数据比特率为6~24kbit/s。 高比特率的编/解码器,包含MPEG-2 AAC和矢量量 化编码在内的时间—频率(TF)编/解码器。抽样频 率>8kHz,数据比特率为16~64kbit/s,采用AAC。 2010年秋 北京信息科技大学 图3-39 MPEG-4声音编码及其码率带宽(2~64kbit/s)关系图 2010年秋 北京信息科技大学 速度控制功能允许在不改变声调的情况下,在解码过程中改变声音的时间坐标。这对在实现快放功能时匹配时频序列的长度 是非常有用的。 声调改变是在不改变编解码过程的时间坐标的情况下,改变声音的调。这对卡拉OK应用中的变调十分有用。 比特率分级允许码流被解析成更低速率的多个码流,它们的组合仍然能解码成有意义的信号。码流的解析可发生在传输或者 解码时。 带宽分级可以认为是比特率分级的一种特例,表示声音信号一定频谱段的部分可以在传输或解码时丢弃。 解码器复杂性分级允许不同复杂度的解码器对给定码流进行解码。通常,声音的质量与编解码器的复杂度无关。 2010年秋 北京信息科技大学 3.5.4 MPEG-7 在信息社会中,可以利用的视听信息形式越来越多,如图像、视频、语音、3D模型及图形等。 而手段不仅是记录-存储-重放,尤其是网络的出现,特别是媒体服务、各项服务项 目种类和大容量数据库等基于内容服务需求的 快速增长,引发了对视听信息内容的检索、交 换及传递的迫切要求。 2010年秋 北京信息科技大学 MPEG-7称为“多媒体内容描述接口”,主要是描述多媒体素材内容的通用接口的标准化。 MPEG-7本质上与MPEG-1、MPEG-2及MPEG-4不同,后三者是论述音视频具体的编码,而前 者是促进数据元的互操作性、通用性和数据管 理灵活性。 2010年秋 北京信息科技大学 MPEG-7的目标: 产生一个描述多媒体内容的标准,支持对多媒体信息在 不同层面的解释和了解,从而将其依据用户需求而进行 传递和存取。 它不同于其他MPEG音频,不是针对某个具体项 目应用 MPEG-7典型应用有:建立音频档案(库);从互联网 和档案中提取和恢复音频文件和数据。 提供视听信息的描述,例如用于对所需视听素材进行检 索(即查寻图书、资料)。 3.5.4 MPEG 3.5.4 MPEG--77音频 音频 2010年秋 北京信息科技大学 为了使人们在因特网上能够很快地搜索到所需要 的内容,MPEG-7多媒体接口应能支持: MPEG-7可完成人耳听觉感知需要的内容,频率轮廓线、 音色、和声、频率特征(音调、音域)、振幅包络、时 间结构,即声音特性(音头持续时间及音尾)、文本内 容,如通过唱一首歌曲的开始歌词或发出一篇文章开始 一段的文字声音或声音近似值,即唱出歌曲的旋律或发 出一种声音效果,即可以搜索到相应的全部原型声音或 文本。 支持数据音频(如CD唱片、MPEG-1音频格式);模型 音频(如磁带介质、MPEG-4的SAOL)及MIDI(包括 一般MIDI及Karaoke格式)。 2010年秋 北京信息科技大学 3.5.5 AC-3 广泛地用于DVD、DTV和DBS中的多声道音频传输。 AC-3编码系统是AC-2编码形式的副产物,属于感知编码器。 可把5个独立的全频带通道和一个频带为全频带1/10的辅助低音通道的信号实现统一编码, 成为单一的复合数据流,其比特率比CD唱片 一个通道的比特率705kbit/s还低。 2010年秋 北京信息科技大学 AC-3符合ATSC A/52规定的数字音频压缩 标准。 主要应用: 充分利用视频传输系统的信道带宽; 减少存储需求。 主要运用于数字电视系统和DVD影音光盘。 2010年秋 北京信息科技大学 AC-3图3-40 杜比AC-3环绕声播放系统示意图 特点: 全音频声道 立体环绕声 声道之间分 2010年秋北京信息科技大学 从家庭影院的应用和发展来看,杜比AC-3环绕声 系统将可能成为主流,因为: 美国已确定杜比AC-3环绕声系统为HDTV(高清晰度电 视)音频信号的编码和解码标准。 数字视盘机(DVD)的音频也采用AC-3音频标准。 美国几乎所有著名的电影公司制作的影片都按照AC-3系 统录制。 目前世界著名的电子公司生产出的DVD机,A/V放大器 都带有AC-3解码器。 3.5.5 3.5.5 杜比 杜比AC AC--33 2010年秋 北京信息科技大学 目前家庭影院流行的款式杜比定向逻辑环绕声系统 家庭用THX系统 杜比AC-3环绕声系统 这3种款式家庭影院的效果是完全不相同的,消 费者应根据经济实力和欣赏水平来选择。 2010年秋 北京信息科技大学 参数/心式 Dolby Pro-logic Home-THX Dolby AC-3 软件上声道数(传输声道) 2CH 2CH 5.1CH 重放声道 4CH 4.1CH、6CH 5.1CH 声场上声道分布 环绕声道频响100Hz~7kHz 100Hz~7kHz 20Hz~20kHz 录制方式 模拟方式 模拟方式 数字方式 环绕声声道 单声道或模拟立体声 单声道或模拟立体声 双声道立体声 分离度 有串音 串音低 串音极低

本文链接:http://theferrari348.com/zhengnayasuo/532.html