Audio格式汇编

Martyn哥

已于 2025-02-27 12:03:19 修改

阅读量929

点赞数

文章标签：音视频实时音视频

于 2022-09-30 10:15:03 首次发布

本文链接：https://blog.csdn.net/intel1985/article/details/127110346

版权

本文详细介绍了AAC（Advanced Audio Coding）的各种格式，包括MPEG-2 AAC、MPEG-4 AAC、HE-AAC等，并重点讲解了ADTS（Audio Data Transport Stream）的结构，特别是其头信息的组成和MPEG标识符的作用。同时，提到了ADIF（Audio Data Interchange Format）作为低开销的AAC格式，以及MPEG-4 Audio Transport Stream的传输模型，如LATM和LOAS层的复用与同步机制。此外，还涵盖了AC3和杜比系列音频格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Audio格式汇编

AAC (Advanced Audio Coding)

包含 MPEG-2 AAC，MPEG-4 AAC，HE-AAC，HE-AAC V2

ADTS (Audio Data Transport Stream)

由ATDS Header + RAW AAC ES组成：

一般情况下ADTS的头信息是7个字节，分为2adts_fixed_header和adts_variable_header部分，同步字符是0xFFF，代表一帧的开始和上一帧的结束。

在ADTS（Advanced Audio Coding（AAC）Audio Transport Stream）流媒体协议中，ID是MPEG标识符，是一个用于标识流中音频数据类型的标志。它的值为1表示音频数据为MPEG-2 AAC格式，值为0表示音频数据为MPEG-4 AAC格式。
除了MPEG-2 AAC和MPEG-4 AAC之外，MPEG标识符还有其他一些取值，如下所示：

值为2表示音频数据为MPEG-2 AAC Low Complexity（AAC-LC）格式。
值为3表示音频数据为MPEG-2 AAC Scalable Sample Rate（SSR）格式。
值为4表示音频数据为MPEG-2 AAC Long Term Prediction（LTP）格式。
值为5表示音频数据为Spectral Band Replication（SBR）格式。
值为6表示音频数据为SBR with Parametric Stereo（HE-AAC v2）格式。
值为7表示音频数据为ISO/IEC 14496-3和ISO/IEC 14496-3:2001 AAC格式。

需要注意的是，MPEG标识符只是ADTS流中用于标识音频数据类型的一个标志，实际的音频编码格式还需要根据ADTS帧头中的其他字段进行判断和解析。此外，随着AAC技术的不断发展和演进，可能会出现新的MPEG标识符取值，需要根据具体情况进行判断和处理。

ADIF (Audio Data Interchange Format)

Overhead 最小的 AAC 格式，不支持 Random Access，较少使用，定义在ISO/IEC 13818-7中，如下图所示：

MPEG-4 Audio transport stream

Mpeg4 audio的传输机制使用了复用层LATM和同步层LOAS的两层传输模型。LATM层复用后的数据称之为AudioMuxElement() / EPMuxElement()，EP是Error protection出错保护，是在AudioMuxElement的基础之上增加了差错控制，出错处理功能。如果EPMuxElement没有差错处理，就等同于AudioMuxElement，下图列举了LATM和LOAS的大致关系：

LATM (Low-overhead MPEG-4 Audio Transport Multiplex)由MPEG4的一系列Payload和这些Payload的AudioSpecificConfig元素构成，LATM复用后的数据加上同步信息构成了LOAS (Low Overhead Audio Stream)。这就要求仅支持LATM复用数据的系统提供同步功能并且能够处理任意长度的数据帧。官方说明如下：

细节展开如下图所示：

LATM和LOAS都用于低开销的audio传输中，LATM数据包中的AudioSpecificConfig可以用带内也可带外传送，由于AudioSpecificConfig 一般不变，在MP4格式的文件中，可以只在文件头部信息中描述一次，将AudioSpecificConfig 信息一次发送给解码器，这称为带外传送。如果AudioSpecificConfig 包含在每个LATM复用后的数据帧中，则称之为带内传送。AudioSpecificConfig参数比较复杂，可参考ISO/IEC14496-3 。

        LOAS同步层给LATM层复用后的数据元素提供了三种不同类型的同步机制，即AudioSyncStream(),EPAudioSyncStream()和AudioPointerStream().任一一种同步机制独立于更底层的传输机制。
AudioSyncStream
        由11位的同步关键字0x2B7,13位帧长度字段，和LATM复用后的数据组成。
EPAudioSyncStream
        适用于错误率较高的环境,同步关键字为0x4de1,16bits。
AudioPointerStream
        用于固定长度的帧同步。

DTS（Digital Theatre System）

是德利贝乐格公司的产品，其编码更精细，拥有好的音色和音乐解析力。

AC3

是杜比实验室的全数码环绕声技术，提供了5+1声道，包括立体环绕声效果，频率响应宽，能精确定位声源位置。包括：

1.Dolby Digitial(AC3) 2.Dolby Digitial Plus(DD+,EAC3) 3. 杜比TrueHD (Dolby TrueHD)4.杜比 AC-4

央视频投屏直播源三维菁彩声Audio Vivid（av3a）

Audio Vivid是T/UWA 009.1 规定的音频编解码技术规范，及配套衍生技术的代称，是由世界超高清视频产业联盟（UWA）牵头的新一代音频技术标准。UWA与 AVS （Audio Video Standard）编解码标准协同，联合产业端到端生态，推动发布三维菁彩声(Audio Vivid)技术团体标准草案，旨在快速推动超高清视频产业发展，提升超高清视频核心关键技术标准影响力。Vivid：意为“生动的、鲜明的”，强调其目标是提供沉浸式、逼真的音频体验。Audio Vivid Immersive Dynamic。AV3A （AVS 3D Audio）全称AVS 3D Audio（AVS 三维音频），属于 AVS3 视频编码标准 的配套音频标准，基于 MPEG-H 3D Audio 技术，提供 三维空间音频 体验。