「多媒体与信号处理」课程笔记
笔记说明
这是 USTC 软件学院 - 苏州 2023 秋季学期课程笔记(互联网版本)。本着藏着掖着发霉不如对外分享发光的精神,现将其公布。原本的笔记 是卡片式的,为了便于互联网传播与收藏,现整合到同一篇文章当中。
这篇笔记的特点在于:
- 有机涵盖 PPT 内容,精心编排,存在本人的理解消化过程
- 有重点标识、考点标识、实际考察标识
- 存在一些习题以供复习
- 部分图片为作者手工制作,便于知识的理解和掌握
本笔记存在以下的符号定义:
- 🔺表示老师经常在课上提,为考试重点。
- 红色字体为 部分 实际考察内容(指的是 2023 秋季学期考试)。
本笔记的内容来源:
- 主要来源:课程 PPT。注意,笔记的章节顺序是经过梳理调整的,顺序不一定与 PPT 讲授过程相符。
- 参考补充:秃头学长的笔记,补充了一些练习题。
笔记共分为 12 个章节。由于作者水平、精力与时间有限,「时频映射」的两个 Slices 以及「H.264」的 PPT 仅记录部分关键内容,内容也较粗糙(打上了「落叶🍂」标记)。由于当时考试不考「MP4」,所以笔记里也不包含这个章节。
临考前老师列出了多媒体信号处理课程知识点(详看 本课知识点 小节)。在后续的章节中这些知识点将以「考点」标注,如下示例:
如果你有以下需求:
- 查看笔记源码
- 想导入到自己的双向笔记库中
- 习惯在 Github 上阅读
- 为笔记做贡献
可以访问 本项目:
任何贡献都 Welcome!🎉🎉如果你有更新本笔记的想法(或者仅仅是纠错)可以通过邮件或评论区联系我!同时也期待你的 star~
导论(格式概览)
什么是多媒体?包括文字、视频、静态图像、动画、交互内容。应用于广告、艺术、教育
什么是信号处理?
- 系统工程、电子工程和应用数学领域
- 操作、分析模拟信号和数字信号
- 代表时空变化的物理量
- 典型的操作和应用:信号获取与重构、信号压缩、特征提取、质量提升(降噪,图像增强等)
🔺 数据压缩
无损压缩:识别并消除统计冗余,无信息丢失
- LZW、Huffman coding(哈夫曼编码)、Arithmetic coding(算数编码)
有损压缩:识别并移除不重要的信息
- Quantization(量化)、JPEG
数字容器格式 Digital Container Format
容器文件用做识别并交织不同数据形式。
容器格式部件的不同名称:
- RIFF、PNG:chunks 块
- QuickTime/MP4:atoms 原子
- MPEG-TS:packets 包 (来自通信术语)
- JPEG:段
🎵 音频独有的容器:
- AIFF(IFF 文件格式,在 Mac OS 平台上广泛使用)
- WAV(RIFF 文件格式,在 Windows 平台上广泛使用)
- XMF(可扩展音乐格式)
🖼 静态图像独有的容器:
- TIFF (Tagged Image File Format,标记图像文件格式) 静止图像和关联的元数据。
其他可以接纳多种音视频类型或其他媒体的容器:
- 3GP (在许多手机中使用;基于 ISO 基本媒体文件格式,是 MP4 的变种)
- ASF(Microsoft WMA 和 WMV 的容器)
- AVI(标准的 Microsoft Windows 容器)
- Flash Video (FLV, F4V) (来自 Adobe Systems 的视频和音频容器)
- Matroska (MKV) (不限于任何编解码器或系统)
- MJ2-Motion JPEG 2000 文件格式.
- QuickTime File Format(Apple 的标准 QuickTime 视频容器)
- MPEG program stream (standard container for MPEG-1 and MPEG-2 elementary streams)
- MPEG-2 transport stream (a.k.a. MPEG-TS) (standard container for digital broadcasting and for transportation over unreliable media; used also on Blu-ray Disc video)
- MP4 (standard audio and video container for the MPEG-4 multimedia portfolio)
- Ogg (standard container for Xiph.org audio format Vorbis and video format Theora)
- RM (RealMedia; standard container for RealVideo and RealAudio)
其他:SWF、RMVB
音频格式 🎵
非压缩的音频格式:WAVE、AIFF、Raw PCM
无损压缩格式:FLAC、Monkey’s audio (APE extension), Shorten, WMA Lossless
有损压缩格式:MP3, AAC, WMA, AC3
图像格式 🖼
RAW、BMP、JPEG、JPEG2000、GIF、PNG
视频格式 🎞
MPEG-1、MPEG-2、MPEG-4 visual/AVC、H.261、H.263、H.264
- Advanced Video Coding(ISO)=H.264(ITO)
tea:H 开头一般和电信相关
视频压缩标准的历史详看 视频编码 小节。
BMP、WAV、AVI 格式
Windows Bitmap🖼
文件结构
bfOffBits:是从位图文件头到位图数据的偏移量。即位图信息头 (BITMAPINFOHEADER)+ 全部颜色对照表 (RGBQUAD) 的字节数。
数据由代表位图的连续行或扫描线的字节值数组组成。每条扫描线由连续的字节组成,这些字节按从左到右的顺序代表扫描线中的像素。
代表扫描线的字节数取决于位图的宽度。
扫描线以 32bit 为边界,必须用 0 填充至末尾。
- 这意味着宽度为 8 位,20 位或 30 位的单色位图将具有相同的扫描线大小:32 位
- 40 位宽的单色位图将具有 64 位的扫描线大小。
Bitmap 中的扫描线是自底向上存的
- 数组中的第一个字节代表 bitmap 左下角
- 数组中的最后一个字节代表 bitmap 右上角
位图种类
灰度位图
- 每个像素使用 8 个比特(1 字节)。Info Header 中的 biBitCount 将为 8。
- 每个字节代表 256 种灰度阴影。白色为 FF,黑色为 00
- 实质上是 8-bit 彩色位图的特例。存在一个颜色表,其中条目 0 指向黑色,条目 255 指向白色,而介于两者之间的条目指向灰色阴影。对于一个给定大小的图像来说,8-bit 灰度位图和 8-bit 彩色位图是一样的
24-Bit 彩色位图
- 每个像素使用 24 个比特(3 个字节)。Info Header 中的 biBitCount 将为 24。
- 每个像素 3 个字节代表红绿蓝。白色 FFFFFF,黑色 000000,红色 FF0000,绿色 00FF00,蓝色 0000FF
8-Bit 彩色位图
- 每个像素使用 8 个比特,只有 256 种颜色,通过调色板实现
- 颜色表在 info header 和 Data 之间,每一对含有 4 个字节(R, G, B, 0x0)
颜色表:
WAV 格式 🎵
WAV 是存储数字音频(waveform)的简单文件格式,使用了 RIFF 结构将文件内容分为不同的块(chunk)。
- 每个块均由标头和数据字节组成。
- Header 指定块数据字节的类型和大小。
它支持各种 bit 分辨率、采样率和音频通道
流行于 Windows 平台,广泛应用于处理数字音频波形程序中
所有使用 WAV 的应用必须能够读取两个必要块(fmt、data),并且可以有选择的忽略可选块。
程序复制一个 WAV,应该复制 WAV 中所有的块,即使有一些块最后不会被解释
次序要求:在 WAV 文件中,除了 Format 块必须在 Data 块前外,块的顺序没有限制
注意,format 块也许不是第一个块。一个 WAV 文件通常有三个 chunk 以及一个可选 chunk,其在文件中的排列方式依次是:
- RIFF chunk
- Format chunk
- Fact chunk(附加块,可选)
- Data chunk
所有的数据都以 8 位字节存储,以小端形式存于字节中
「块(的)数据」和「数据块」不是一个概念:数据块有「块大小」和一些「块数据」,其他所有块也是如此。
组成
WAV 组成:不同类型的 chunk 的集合。每个块包含头及数据,头指定了块数据的类型和大小,一些类型的块可能含有子块。RIFF 文件块必须以 2 个字节(1 word)对齐。
【必含】fmt 块
fmt 块,采样格式,包含描述波形的参数,比如采样率、位分辨率和通道数
1 | typedef struct { |
🔺wFormatTag 值 | 含义 |
---|---|
0x0001 | WAVE_FORMAT_PCM 未压缩的数据 |
0x0002 | WAVE_FORMAT_ADPCM |
0x0006 | WAVE_FORMAT_ALAW (电话格式) |
0x0007 | WAVE_FORMAT_MULAW (电话格式) |
0x55=85 | WAVE_FORMAT_MP3 |
WAVEFORMATEXTENSIBLE 扩展的 WAVE 格式块
1 | typedef struct { |
位掩码 dwChannelMask:
用于超过 2 通道或 16 分辨率的音频数据:
wFormatTag
= FFFE(-2)cbSize
= 24
以 6 通道 5.1 格式为例子:
1 | WAVEFORMATPCMEX waveFormatPCMEx; |
【必含】data 块
音频数据,包含实际波形数据,比如所有通道的数据波形
1 | typedef struct { |
交错立体声波样本:多通道采样存储于交错的波形数据中;8bit 样本采用无符号数据表示,其他样本使用有符号数据表示。
对于多声道声音,每个声道的单个采样点是交错的。一组交错的采样点称为一个采样帧。
假设存在两个通路,先存放 time1 的左通道和右通道数据,再存放 time2,以此类推。
其他
fact 块(详见 音频编码基础 小节 的 ADPCM 章节)、cue 块
AVI 格式 🎵🎞
AVI 是另一种 RIFF,由微软开发
音视频交织,即视频段数据紧接音频数据。这允许媒体播放器以块来读数据而不是文件整体。
注意 AVI 是 Wave 格式,必须以两个字节(1 word)对齐,填充。解码时不需要考虑填充的数据。
索引目的:为了支持随机访问
🔺流列表中的四字节码:
- vids:video stream
- auds:audio stream
- mp4v:MEPG4 visual
数据块可以直接驻留在 movi 列表中,或者被 res 列表包围。
🔺FOURCC,定义块中信息的类型:
- db:未压缩的视频帧
- dc:压缩的视频帧
- wb:音频流
- What does fourcc code “vids” stands for?
- What does fourcc code “auds” stands for?
- What does fourcc code “00db” stands for?
- What does fourcc code “01wb” stands for?
- ln which scemarops is wFormatTag equal to -2 in a WAVE file?
音频通道大于 2,每一个抽样信号大于 16bit
音频编码基础
数字音频编码器:
- 输入:模拟音频信号
- 编码器:转换为方便地数字形式
- 存储、处理、传输
- 解码器:将数字数据转换为模拟信号
🔺音频编码目标:
- 保真度:解码器尽量提高感知的音频质量,减少失真
- 数据率:减少代表原始音频信号的数据量
- 复杂性:减少计算复杂性
- 延迟:减少编码延迟
PCM——最简单的编码器
量化是一种有损的过程。
在量化过程中使用的离散值数目越高,输出的信号越接近原始音频
CD:Compact Disc 激光唱片
CD 的数据率:44.1k/s × 16 bit × 2 = 1.4112 Mb/s
- 采样:时间间隔 0.023ms(1/0.000023≈43.5k)或采样频率 44.1k。
- 每一个采样的比特数为 16bit,这种精度允许 65536 个离散电平来表示音频采样幅度。
- 2 个通路
潜在的编码错误
- 采样错误——混叠效应(抽样速率小于二倍带宽)
- 🔺量化错误:过载错误、截断错误(round-off)
- 比特错误:存储和传输错误
更复杂的编码器
心理声学表明,每个样本理想采样比特为 18-20bits 来描述中等频率(2~5kHz)的音频样本。
冗余:感知冗余、统计冗余
有损压缩
有损压缩通过量化来实现。
量化
如果有 R 比特可以表示的最大数为 ,两种量化方法表示的不同样本/编码数为:
- midtread 中平:,一般来说效果较好,噪声抑制(小电频通常为噪声,Midtread 会过滤掉)
- midrise 中升:,噪声放大
均匀量化 Uniform Quantization
定义输入范围所需要的信息:
- 量化器是 midtread 还是 midrise
- 最大不过载的输入
- 描述编码的比特数 R
R 比特允许我们设置的输入范围:
- midrise:
- midtread:
非均匀量化 Nonuniform Quantization
均匀量化会存在截断误差(最大值为 ),但是,相对于非常低的幅度信号,此误差可能会很大。由于截取失真的感知与相对误差更相关,因此这意味着均匀量化器在低功率输入信号上的表现要比在高功率信号上的差得多。 要解决此问题,可以使用非均匀量化。
压缩方法:
- 幂律压缩:, (ACC 或 MP3 中 p=0.75)
- 对数压缩
量化错误 Quantization Errors:
- 量化误差:
- 信噪比 SNR(Signal-to-noise ratio)
- 低 量化误差 对应于 高 信噪比
截断错误 Round-off Error:产生于将一定范围的信号振幅输入对应到单一编码中
过载错误 Overload Error:
- 出现原因:量化器接收的信号振幅(绝对值)过大
- 导致爆鸣(突突突的声音),为了避免它,通常把 设置得足够大,但由于 R 比特数固定,这会导致截断错误。量化器设计要求在减少两种类型的误差之间取得平衡。
过载错误、截断错误属于量化错误。
无损压缩:熵编码
翻译量化编码为一些代表符号,每个符号使用了一定数量的比特。
使一般的编码更短,从而降低平均的比特率。这需要估计每一个可能编码出现的概率。
比特率计算:,其中 表示编码出现的概率, 表示编码后的长度。
熵代表了编码的极限:
当我们能确保下一个输出编码是什么时,熵会变低;反之变高。
例:在 2 编码符号系统中,有
数学图像 链接
- 当 p=0 或 1 时,熵为 0。我们知道下一个编码是什么,所以我们不需要发送任何 Bits。
- 当 p=0.5,熵为 1。当所有编码符号出现的概率相同时,达到最大熵。在这种情况下使用熵编码进行压缩没有效果。
- 对于其他概率,存在一种编码方式使得平均符号编码使用小于 1 个比特
哈夫曼编码
被用于传真、ASCII 文本数据编码压缩。
是一种统计学编码,平均编码长度最小。
编码长度可变,且越经常使用的字符编码长度越短。
特点:
- 编码过程不唯一(取决于分支的标记或合并符号的选择),但 WPL 相同(在这里指的是比特率 R)且最优
- 在符号分布概率不均匀的情况下,哈夫曼编码的比特数比固定比特编码方法少
- 霍夫曼码中每个样本的平均位数在熵的一位以内,即平均采样比特数范围:
WAVE MS-ADPCM
DPCM 差分脉冲编码调制:
- 以 PCM 为基线,增加了预测采样信号的功能。
- 与 PCM 直接传输原始 PCM 采样不同的是,DPCM 传输的是原始采样信号与预测值(基于先前采样)之间的差异:
- 预测值计算举例:,a、b 为预测系数
diff 通常非常小,我们必须限制它的表示范围,如从 16bits 限制到 4bits。但我们也不能保证 diff 总是小的(如剧烈信号变化),为了解决这个问题,引入了 iDelta。如果 diff 非常大,则 iDelta 也会很大,反之亦然。
于是我们定义:,这样新的差异值将会稳定。
iErrordata 以 4bit 保存,称为「nibble」,范围为 -8~7。每次新的 iErrordata 生成后,iDelta 相应做出改变。
1 | iDelta = iDelta * AdaptableTable[(unsigned)nibble]/256; |
WAVEFORMAT
MS-ADPCM 的 wave 文件中,存在与 fmt 块和 data 块的另一种块:fact 块
- fact 块存储采样长度
- data 块中,数据以块的方式存储,一个接着一个
- 块有三个部分:头、数据和填充
编码过程
对于每个通道的每个块的编码过程:
- 决定块要使用的预测器
- 决定块的初始 idelta
- 输出块的头
- 编码并输出数据
块头写入:
- 对每一个通道,输出预测器的选择
- 对每一个通道,输出初始 idelta (量化比例)
- 对每一个通道,输出第一个采样的 16bit PCM 值
- 对每一个通道,输出第二个采样的 16bit PCM 值
然后剩下的块就可以进行编码。注意第一个编码的值是块的第三个采样,因为前两个已经包含在头中了。
当块中有许多采样需要进行编码,将采取下列步骤:
- 从前两个采样中预测下一个样本:
用预测系数计算会导致运算量增长,而除以 256 只需要移位,无浮点数除法
- 产生 4bit 有符号 error delta 以及避免上/下溢: 并将 ierrordelta 的范围修剪至[-8,7]
- 于是输出 nibble ierrordelta=
putnibble(ierrordelta)
- 把「预测错误」加到预测的下一个样本,并避免上/下溢: 将其缩紧至 16bit(short)
- 调整用于计算「预测错误」的量化步长: 如果 idelta 过小,将其设为最小的合法值
- 更新先前样本的记录:
步骤 5 的目的是自适应量化步长。
步骤 4.6 是为了保持和解码端一致,真正预测时是通过编码解码后的信号。此时和解码端保持一致,使误差不会太大。
1.What is audio CD rate?
44.1KHZ × 2 × 16bit/s = 1.411 Mbit
2.What are audio coding goals?
delity,rate,complexity,delay
3.List the components of a chunk.
header,data
4.What kind of quantization errors are there in audio coding?
overlode,round-off
5.What is the average number of bits per sample in a Huffman code?
图片和视频编码基础
🔺人类视觉系统对低频图像更敏感。
图形学中的高低频:图像的低频代表着轮廓信息,高频代表着细节信息,相位代表位置信息。
特定自然视频片段中与视频处理和压缩相关的特征:
- 空间特征:纹理变化、物体对象的数目和形状、颜色
- 时间特征:物体运动、光线变化、摄像机/视角变化
帧率:
- 每秒小于 10 帧:用于超低比特流视频通信
- 10~20 帧:典型低比特率视频通信
- 25~30 帧:电视图像标准
- 50~60 帧:平滑(高数据率)
色彩空间:
- 单色图:仅需一个数字表示某一个空间采样的亮度
- 彩色图:至少需要三个数字才能准确表示某一个像素的颜色
代表亮度和色彩的方法称为色彩空间:
- RGB 色彩空间:捕获和显示图像的恰当方法。RGB 色彩空间中三种颜色同样重要,通常分辨率也相同。彩色阴极射线管(CRT)和液晶显示器(LCD)应用 RGB。
- YCbCy 色彩空间(YUV 色彩模型)
图像的视觉质量受采样点数量的影响。
YCbCr
🔺人类视觉系统对亮度更敏感(和颜色相比)
人眼的视杆细胞(感知亮度)比视锥细胞(感知色彩)数量多。
色彩空间
在 RGB 颜色空间中,这三种颜色同等重要,因此通常都以相同的分辨率存储。
YCbCr 区分亮度和色度,亮度具有更高的分辨率。
Y:亮度(luma),RGB 的加权平均,
Cb:彩度蓝
Cr:彩度红
每一个色度是 R、G、B、Y 之间的差异
为了降低存储和传输需求,可以将 RGB 图像转换为 YCbCr 图像
ITU-R 建议的系数定义:
采样格式
为了利用人眼对亮度和色度的不同敏感性,将视频信号转换为亮度/色彩空间时,可以对色度进行空间上的次采样或低通滤波
4:4:4 采样
Y,Cb 和 Cr 有着相同的分辨率。因此每一个分量存在于任何位置的像素上
4:2:2 采样
色度组件的垂直分辨率与亮度相同,但水平分辨率只有亮度的一半。
用于高质量彩色录制。
4:2:0 采样
Cb 和 Cr 的水平和垂直分辨率都是 Y 的一半。
广泛用于消费类应用,如视频会议、DVD。
需要的采样数(比特)是 4:4:4 视频(或 RGB 视频)的一半。
为什么不叫做 4:1:1 采样?
因为在历史上 4:1:1 采样已被用于指代这种采样:
例子:
视频帧格式
在进行压缩和传输之前,捕获的视频会被捕获或转换为一组“中间格式”之一。
常见的中间格式(CIF)是一组流行格式的基础。
质量评估
主观测量——ITU-R 500
通常采用的手段:双刺激连续质量量表(Double Stimulus Continuous Quality Scale)
花费昂贵,耗时长
客观质量测量
峰值信噪比 ( PSNR ) 用于表示信号的最大可能功率与影响其表示的保真度的破坏噪声的功率之间的比率。虽然较高的 PSNR 通常表明重建质量较高,但在某些情况下可能并非如此,必须非常小心该指标的有效性范围。只有当它用于比较来自相同编解码器和相同内容的结果时,它才是最终有效的。一般来说,在估计图像质量,尤其是人类感知的视频质量时,与其他质量指标相比,PSNR 表现不佳。
运用最广泛的是峰值信噪比(Peak Signal to Noise Ratio, PSNR)
MSE:原始图像和受损图像或视频帧之间的均方误差
图像视频处理准则
目标是减少信号中存在的冗余(🔺视频编码的四种冗余度):
- 时间冗余度(Temporal redundancy):两帧相像
- 空间冗余度(Spatial redundancy):两点相像
- 统计冗余度(Perceptual redundancy)
- 感知冗余度(Statistical redundancy)
JPEG 图像压缩
基本流程:
- 在 JPEG 压缩中,图像被划分为 8×8 像素的块,然后对每个块进行 2-D 离散余弦转换(DCT)。
- DCT 将像素块中的大多数信号压缩为小的 DCT 系数部分。
- 量化这些 DCT 系数将使得它们大部分转化为 0。
- 这些被量化的系数以之字形进行扫描,再进行游程编码和哈夫曼编码。
帧内帧间预测
每一帧可以都被编码为分开的图像,例如对每一帧独立应用类似 JPEG 的编码。
视频压缩通过利用时间冗余或帧间相似性达到比图片更好的压缩效果。
🔺编码帧的三种基本类型:
- 帧内编码帧(I - 帧):独立于于所有其他帧进行编码
- 预测编码帧(P - 帧):基于先前编码的帧进行编码
- 双向预测帧(B - 帧):基于先前帧和未来帧进行编码
运动估计与补偿
为了最大限度利用相邻帧的可预测性,在运动补偿过程中估算两帧之间的移动并形成正确预测是非常重要的。
估计帧与帧之间运动的过程称为运动估计;基于先前编码的参考帧预测给定帧,同时补偿两帧之间的相对运动的过程称为运动补偿预测 (MC-prediction)。
基于块的的运动估计补偿
对于当前帧 M×N 样本的每个块:
- 在参考帧中搜索一个区域,以找到一个“匹配”的 M×N 样本区域
- 被选中的候选区域称为当前块的预测块,并将其与当前块相减,得到残差
- 将残差块编译传输,当前块和候选位置区域之间的偏移(运动向量)也将被传输
运动补偿块的大小
子像素运动补偿
一个更好的运动补偿预测可以由参考帧中的差值样本位置构建。
分像素运动估计补偿引入查找分样本差值位置和整样本位置,选择最匹配的位置,并使用该位置的整数或子样本值进行运动补偿预测。
过程:
- 在整样本网格(圆圈标记)中找到最佳匹配
- 搜索紧挨着最佳匹配(方块标记)的半样本位置。
- 如果需要,则搜索最佳半样本位置(三角形标记)旁边的四分之一样本位置
预测越精确,残差越小,motion vector 数据量增加。
随着插补步骤的增加,性能增益趋于减小:
- 与整样本运动补偿相比,半样本插值具有显著的增益。
- 四分之一样本插值有一定适度改进。
- 8 个样本插值改进更小,以此类推。
与更复杂的运动补偿方案相关的压缩效率权衡:更精确的运动补偿需要更多的比特来编码向量域,但编码残差比特数更少;反之亦然。
图像模型
- 转换:压缩数据并去相关
- 量化:降低传输数据的精确度
- 重新排序:组织数据以合并重要值
- 预测图像编码
预测图像编码
空间预测,以 DPCM 为例:
- 编码预测:prediction P(X) = (2A+B+C)/4
- 残差计算:R(X) = X-P(X) ,然后编码并传输 R(X)
- 解码器解码残差并形成预测:P(X) = (2A+B+C)/4
- 重建像素:X = R(X) + P(X)
转换编码
转换后的数据应当去相关且被压缩:在转换后的数据中,大多数的信息应当被集中于少量的值中。
转换应当可逆。
转换应当容易计算:低内存需求、可使用有限精度算法实现、算数操作数低
目前有许多转换:KLT,SVD,DCT
在 N×N 样本块中,DCT 始终受欢迎,且图像一直在块单元中被处理。
运动补偿残差往往会受到块边缘的伪影(blockiness)的影响。
对整个图像或帧做的基于图像的转换操作有:
- 图像传输(离散小波变换 DWT)胜过静态图像压缩的块传输(JPEG2000)
- DWT 需要更高的内存需求(尤其是大图像),因为是以整个图像作为一个单元处理图像的
- DWT 并不“适合”基于块的运动补偿
2D-DCT
正向离散余弦转换:
逆 DCT(IDCT):
X 为 N×N 样本块,Y 为系数矩阵,A 为 N×N 传输矩阵
例子:N=4,有 A:
DCT 系数的特征
FDCT 输出是一组 N×N 的系数,表示 DCT 域中的图像块数据。
DCT 自身保存所有 N×N 图像块中的信息。
人眼对低频 DCT 参数更加敏感。
DCT 有助于将感知上重要的信息与感知上不重要的信息分离开来。
用更高的精度编码低频的 DCT 信息,但使用更少或不使用比特来编码高频系数,从而丢弃在感知上不太重要的信息。
在计算 IDCT 之前添加更多的系数,会逐渐提高原始区块的重建精度,到包含五个系数时,重建的区块与原始区块的匹配程度相当接近。
可以从 16 个 DCT 系数的子集中重建块的近似副本。
DCT 计算复杂性
在典型的 DSP 上,单个 8×8 DCT 或 IDCT 需要几百个指令周期。
以 CIF (352×288) 分辨率和 30 fps 帧率运行的解码器可能需要高达 71,280 IDCT /秒。
IDCT 计算可占用高达 30% 的视频解码器编译周期。
由于 DCT 和 IDCT 在小图像块上操作,因此内存需求相当小,与图像和视频压缩应用程序中的帧缓冲区和其他数据的大小相比,通常可以忽略不计。
DCT 和 IDCT 函数的高计算需求和小内存需求使它们成为使用专用硬件加速器实现的理想候选者。
量化
QP 表示量化步长。
量化用于丢弃感知上不重要的信息。
量化后,使用统计方法对剩余信息进行编码,从而使用尽可能少的比特。
量化和去量化对内存的要求通常可以忽略不计。
游程编码(RLC)
量化后,绝大多数高频 DCT 系数为零。
游程编码:
- 将连续的 0 值系数成组(一个游程)
- 编码 0 的个数(长度),不编码单独 0 系数
为了使连续零值系数的平均值尽可能高,我们以对角之字形的方式扫描 DCT 系数矩阵。
游程编码(RLC,Run-length coding)之后通常是可变长度编码(VLC)。
重新排序
重排序是将非零系数组合在一起,实现有效地表示零系数
可变长度编码(VLC)
一对(游程,量化 DCT 系数)的每个可能值称为一个符号。
常见的符号被分配较短的码字,而不常见的符号被分配较长的码字。
VLC 的一个缺点是编码图像中间的比特误差会阻止解码器正确重建剩余的比特流。
通过在整个编码比特流中散布“重新同步标记”,解码器能够在发生错误时搜索下一个重新同步标记以进行同步。
视频编码结构
通用视频编码模型
编码数据流
编码器的两个主要的数据流路径:从左到右(编码)、从右到左(重建)。
编码流:
- 输入视频帧 Fn 用于编码,并以宏块为单位进行处理
- Fn 和参考帧(如前编码帧 F’n-1)对比。运动估计函数在 F’n-1 中 16×16 的区域,查找出一个 Fn 中当前宏块的一个匹配。当前宏块位置和被选中的参考区域的偏移为一个移动向量(MV,motion vector)
- 基于被选中的 MV,生成运动补偿预测 P(被运动估计器选择的 16×16 区域)
- 当前宏块中减去 P 产生残差或 difference 宏块 D。
数据重建流:
解码数据流
解码数据流:
- Write down the full name of ADPCM in English
Adaptive Differential Pulse Code Modulation - List the four types of redundancy used in video coding
时间、空间、感知、统计 - What is the sample resolution of CIF
352×288 - Write down the formula of PSNR
- ln video coding , there are three basic types of coded frames, what are they?
I P B - What is the purpose of DCT?
去相关,使数据更紧凑 - What is the purpose of Zigzag Scan or reordering?
是将非零系数组合在一起并有效地表示零系数 - What is the purpose of quantization?
量化用于丢弃感知上无关紧要的信息 - In motion estimation and compensation, what kind of redundancy is used in video coding?
temporal 时间冗余 - In 010 editor template, the following variable is defined at the beginning: char type[4];
The variable type is mapped to 0 bytes 3 to in the file.
本小节参考链接
- 质量评估指标:PSNR(Peak signal-to-noise ratio 峰值信噪比)_psnr指标_花生树什么树的博客-CSDN博客
- 傅里叶变换、拉普拉斯变换、Z 变换的联系是什么?为什么要进行这些变换? - 知乎 (zhihu.com)
JPEG 图像编码
Baseline 方法是迄今为止实现最广泛的 JPEG 方法。
基于 DCT 的编码/解码过程
编码过程:
- 输入的组件样本为 8×8 块
- 每个块被前向 DCT(FDCT)转换为一组 64 个值,作为 DCT 系数。
a. 第一个值称为 DC 系数
b. 其他 63 个值为 AC 系数 - 然后使用量化表中 64 个对应值中的一个对 64 个系数中的每个系数进行量化
- 然后将量化系数传递给熵编码过程,以进一步压缩
解码过程:
- 熵解码器解码之字形的量化 DCT 系数
- 解量化后,通过反向 DCT(IDCT)将 DCT 系数转化为 8*8 样本块
前向 DCT(FDCT)
在编码器的输入中,原图像采样以 8×8 块成组,从无符号整数 的范围转换为有符号整数 ,然后输入到 FDCT 中:
其中,
反向 DCT(IDCT)
解码器的输出中,IDCT 输出 8×8 采样块以形成重构图片:
其中,
块样本和 DCT 系数的关系
- 对一个块进行前向 DCT 计算后,64 个 DCT 系数结果被均匀量化器量化
- 每一个系数 的量化器步长为对应量化表中的元素
DC 编码
相邻的 8×8 块之间的 DC 系数通常有着强烈的关联性。量化的 DC 系数被编码为与前块的 DC 项的差值。这种特殊处理是值得的,因为 DC 系数包含了总图像能量的很大一部分。
之字形扫描
所有的量化系数将以之字形顺序进行组织,将低频系数(一般为非 0)放置在高频系数前,以便于进行熵编码。
压缩与图像质量
对于较复杂场景的彩色图像,所有基于 DCT 的操作模式通常会产生以下级别的图像质量:
- 0.25-0.5 比特/像素:中等至良好质量
- 0.5-0.75 比特/像素:良好至优秀质量
- 0.75-1.5 比特/像素:杰出质量,满足大多数的应用
- 1.5-2.0 比特/像素:和原图相差无几,满足有高质量需求的应用
根据源特性和场景内容的不同,质量和压缩会有很大的不同。
具有多个组件的源图像
源图像可能包含 1~255 个图像组件。每一个组件包含样本的矩形数组。
样本被定义为一个 范围的无符号整数。
图像中的所有样本必须有着相同的精度 P,对于基于 DCT 的编解码器,P 可以是 8 或 12。
多组件交织
许多应用程序需要将显示/打印多组件图像的过程与解压过程并行。
这只有在组件在压缩数据流中交织在一起时才可行。
编码交错:如果编码器从 a 压缩一个数据单元,从 B 压缩一个数据单元,从 C 压缩一个数据单元,然后返回到 a…
不同维度的组件交织顺序
上例中,B、C 在水平方向上与 A 相比少了一半样本。在这个例子中,A 的两个数据单元和 B、C 的各一个单元进行交织。
最小编码单元 MCU
在基于 DCT 的编解码器中,数据单元是一个 8x8 的样本块。
最小编码单元 MCU:最小的交错数据单元组。对于非交错数据,MCU 是一个数据单元。对于交错数据,MCU 是由扫描中组件的采样因子定义的数据单元序列。交错数据是 MCU 的有序序列,MCU 中包含的数据单元数由交错的元件数及其相对采样因子决定。
当两个或更多的组件进行交织时,每一个组件 被 个数据单元划分为 的矩形区域。最大的组件交织数为 4,且每个 MCU 的数据单元最大值为 10:
\sum_{\text{所有参与交织的}~i}{H_i\times V_i}\le 10 $$(注:置于 10 这个数字是规定的,没有理由) ## 操作模式 🔺有四种不同的操作模式,在这些模式下定义了各种编码过程: - 基于 DCT 的顺序模式(从上到下,一块一块编码) - 基于 DCT 的渐进模式(从轮廓到细节) - 无损模式 - 层次模式  ### 顺序模式与渐进模式 在顺序模式中,每一个图片组件在单个扫描中编码。 在渐进模式中,每一个图片组件在多次扫描中编码。第一次扫描中编码粗糙,但可识别的图像版本可以快速传输,且通过后续的扫描进行改进,直到达到由量化表确定的图像质量水平。 <span style="color:#ff0000">有两种互补的方法可以对量化 DCT 系数块进行部分编码</span>: 1. 在给定的扫描中,只有之字形序列特定的系数带需要进行编码 2. 在给定的扫描中,无需将当前频带内的系数编码为完全(量化)精度。 1. 最重要的 N 个比特可以在第一次扫描中编码 2. 在随后的扫描中,次重要的比特再进行编码 3. 这个过程叫做「连续逼近」 这两种程序可以单独使用,也可以灵活地混合使用。 量化 DCT 系数的传递:  光谱选择与逐次逼近:  ### 层次模式 层次模式以多种分辨率的方式为图片提供金字塔型的编码。每一种的分辨率与其相邻的编码在水平或垂直维度或两者上相差两倍: 1. 对原始图像在每个维度上按所需的 2 的倍数进行滤波和下采样。 2. 使用顺序 DCT、渐进式 DCT 或无损编码器之一对这个减小尺寸的图像进行编码。 3. 解码此缩小尺寸的图像,然后使用接收器必须使用的相同插值滤波器对它进行水平和/或垂直 2 插值和上采样。 4. 使用此上采样图像作为该分辨率下的原始图像的预测,并使用前面介绍的顺序 DCT,逐行 DCT 或无损编码器之一对差异图像进行编码。 5. 重复第 3 步和第 4 步,直到图像的全分辨率被编码 ## 基线顺序熵编码 在基线顺序编码器中,FDCT、量化、DC 差分以及之字形排序步骤之后,是熵编码。 在熵编码之前,通常只有很少的非零系数和很多零值系数。熵编码的任务是更有效地编码这些系数。 基线顺序熵编码有两个步骤: 1. 将量化 DCT 系数转换为中间符号序列(游程编码) 2. 为符号分配可变长度代码(哈夫曼编码) ### AC 系数 每一个非零的 AC 系数这样编码: - `RUN-LENGTH`:之字形扫描序列中,被表示的非零 AC 系数前,连续数字 0 的长度。 - `RUN-LENGTH` 代表 <span style="color:#ff0000">0~15</span>,Symbol-1 中 `(15, 0)` 代表 `RUN-LENGTH`=16。 - `(0,0)` 代表 `EOB`(块结束),可以将其视为“转义”符号。 - `SIZE`:编码 `AMPLITUDE` 所用的比特数  > [!example] 更多例子 > 0005 → (3,3)(5) > 000003 → (5,2)(3) > 00,-12 → (2,4)(-12) > 0..(16 个 0)..0 1 → (15,0)(0,1)(1) > 0..(17 个 0)..0 1 → (15,0)(1,1)(1) > 0..(18 个 0)..0 -3 → (15,0)(2,2)(-3) > 00000 3 0..0 → (5,2)(3)(0,0) > 0013 → (2,1)(1) (0,2)(3) ### AMPLITUDE 和 SIZE 的范围 量化 AC 系数的取值范围决定了 AMPLITUDE 和 SIZE 信息必须表示的值的范围。对 8×8 FDCT 方程的数值分析表明,如果 64 点 (8×8 块) 输入信号包含 N 位整数,则输出数字的非小数部分 (DCT 系数) 最多可以增长 3 位。这也是量化 DCT 系数的最大可能大小。 基线顺序在 $[-2^7,2^7-1]$ 范围内有 8 位整数源样本,因此量化的 AC 系数幅度由 $[-2^{10},2^{10}-1]$ 范围内的整数覆盖。 带符号整数编码使用长度为 1 到 10 位的 symbol-2 AMPLITUDE 码,因此 SIZE 也代表 1 到 10 的值。RUNLENGTH 表示从 0 到 15 的值。 ### DC 系数 8×8 样本块的差分 DC 系数的中间表示结构类似: - Symbol-1 只表示 SIZE 信息 - Symbol-2 表示振幅信息  因为 DC 系数是差分编码的,所以它覆盖的整数值 $[-2^{11},2^{11}-1]$ 是 AC 系数的两倍,因此必须为 DC 系数增加一个附加的电平。 因此,DC 系数大小的 symbol–1 表示从 0 到 11 的值。 > **差分编码**(differential encoding)指的是对数字数据流,除第一个元素外,将其中各元素都表示为各该元素与其前一元素的差的编码。差分编码的简单例子是储存序列式资料之间的差异(而不是储存资料本身):不存“2, 4, 6, 9, 7”,而是存“2, 2, 2, 3, -2”。 ### 可变长度熵编码 对于 DC 和 AC 系数,每个 symbol-1 均使用来自 Huffman 表集中的可变长度代码(VLC)进行编码。 每个 symbol-2 均使用“可变长度整数”(VLI)码进行编码。 VLCs 和 VLIs 是具有可变长度的代码,但 VLI 不是霍夫曼代码。一个重要的区别是,VLC( Huffman code)的长度直到解码才知道,而 VLI 的长度存储在其前一个 VLC 中。 Huffman 码必须在外部指定为 JPEG 编码器的输入。 请注意,Huffman 表在数据流中的表示形式是一种间接规范,解码器在解压缩之前必须以此间接规范来构造表(解码时需要重新构建 Huffman 树进行解码)。 JPEG 标准包括一组 Huffman 表的示例,但这不是强制性的。 ### 基线编码例子  > [!hint] 考点 29:JPEG 交换格式(JIF):图像、帧、扫描和标记 ## 图像、帧和扫描的关系 - 压缩的图像数据只包含一张图片。 - **在渐进模式和顺序模式编码过程中,一张图片只包含一帧。** - **在层次模式中,一张图片可以包含多帧。** - 一帧可以包含一个或多个扫描。 - 顺序模式下,一个扫描包含一个完整的、单个/多个图像组件的编码。 - <span style="color:#ff0000">在层次模式中:当一张图像的三个组件非交织时,一帧包含三个扫描;如果三个组件交织一起,那么一帧包含一趟扫描。</span> - 一帧也可以包含两趟扫描:一趟是非交织的组件、另一趟为两组件交织。 ## 标记 **标记用于标识压缩数据格式的各种结构部分。** 所有的标记赋予两个字节编码:0xFF+ 不等于 0 或 0xFF 的字节。 标记段包含一个标记以及相关参数的序列。标记段的第一个参数是两字节长的参数,它指定了标记段的字节数(除去两字节标记后的参数长度) 被 SOF 和 SOS 标记码标识出的标记段被视为头(headers):分别为帧报头和扫描报头。 SOI(0xFFD8):压缩图片开始标记 EOI(0xFFD9):压缩图片的结束标记 ### 高级语法 基于顺序 DCT、渐进式 DCT 和无损操作模式的语法:  #### 帧头语义 帧报头应该出现在帧的开始。该报头指定源图像特征、帧中的组件和每个组件的采样因子,并指定从中检索要与每个组件一起使用的量化表的目标。  | 标记结构 | 长度(字节) | 解释 | | -------- | ------------ | ----------------------------------------------------------------- | | 0xFFC0 | 2 | SOF marker | | Lf | 2 | Frame header length, not including the first two bytes 0xFF, 0xC0 | | P | 1 | Sampling precision, equals 0x08 in a baseline system | | Y | 2 | Image height | | X | 2 | Image width | | Nf | 1 | Number of components in a frame. 1 (grey scale) or 3 (color) | | C1 | 1 | Component 1 | | (H1,V1) | 1 | Horizontal and vertical sampling factor | | Tq1 | 1 | Quantization table | | C2 | 1 | Component 2 | | (H2,V2) | 1 | Horizontal and vertical sampling factor | | Tq2 | 1 | Quantization table | | ⋯ | ⋯ | ⋯ | #### 扫描头语义 扫描头应在扫描开始时出现。这个报头指定扫描中包含哪些组件,指定从中检索要与每个组件一起使用的熵表的地址。  | 标记 | 长度(字节) | 解释 | | --------- | ------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------ | | 0xFFDA | 2 | SOS marker | | Ls | 2 | Scan header length, not including the first two bytes 0xFF, 0xDA | | Ns | 1 | Number of components in a scan, in a baseline system, Ns=Nf (Number of components in a frame) | | Cs1 | 1 | Component number in a scan | | (Td1,Ta1) | 1 | Tdn: the four most significant bits, used to select DC entropy coding table <br>Tan: the four least significant bits, used to select AC entropy coding table | | ⋯ | | | | Ss | 1 | Default values are [00] [3F] [00] in a baseline system | | Se | 1 | Default values are [00] [3F] [00] in a baseline system | | (Ah,Al) | 1 | Default values are [00] [3F] [00] in a baseline system | #### DQT 标记段语义 定义量化表 (DQT) 标记段,用于定义一个或多个量化表。  | 标记 | 长度(字节) | 解释 | | ------- | ------------ | ---------------------------------------------------------------------------------------------------------------------------------------- | | 0XFFDB | 2 | DQT marker | | Lq | 2 | Quantization table length, not including 0XFF, 0XDB | | (Pq,Tq) | 1 | Quantization table element precision <br>Pq=0, 8 bits for Q0~Qn, Pq=1, 16 bits for Qt; <br>Tq: Quantization table destination identifier | | Q0 | 1 or 2 | Quantization table element‐Specifies the kth element out of 64 elements | | Q1 | 1 or 2 | Quantization table element‐Specifies the kth element out of 64 elements | | Qn | 1 or 2 | Quantization table element‐Specifies the kth element out of 64 elements | #### 哈夫曼表规范语法 哈夫曼表标记 (DHT) 段定义了一个或多个霍夫曼表规范。  | 标记 | 长度(字节) | 解释 | | ------- | ------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | | 0xFFC4 | 1 | DHT marker | | Ls | 2 | Huffman table definition length, not including 0xFF, 0xC4 | | (Tc,Th) | 1 | TC: Table class – 0 = DC table or lossless table, 1 = AC table. <br>Th:Huffman table destination identifier <br>Th Specifies one of four possible destinations at the decoder into which the Huffman table shall be installed. | | L 1 | 1 | Number of Huffman codes of length i | | ⋯ | ⋯ | | | L 16 | 1 | | | V 1 | 1 | Value associated with each Huffman code, t=L1+L2+…L16 | | ... | ... | | | V t | 1 | | ## JPEG 文件 > [!hint] 考点 30:JPEG 文件交换格式(JFIF) 到目前为止,我们描述的文件格式被称为「JPEG 交换格式 (JIF)」。然而,这种“纯粹”的文件格式很少使用,主要是因为,这个标准的某些缺点: - 色彩空间定义 - 组件子采样注册 - 像素宽高比定义 JPEG 文件交换格式(JFIF)解决了 JIF 的局限性。JFIF 文件中的图像数据使用 JPEG 标准中的技术进行压缩,因此 JFIF 有时被称为“JPEG/JFIF”。 JPEG 文件交换格式是一种最小的文件格式,它使 JPEG 比特流能够在各种平台和应用程序之间进行交换。 此简化格式的唯一目的是允许交换 JPEG 压缩图像。 尽管 JPEG 文件交换格式 (JFIF) 的语法支持任何 JPEG 过程,但强烈建议将 JPEG 基线过程用于文件交换,这确保了与所有支持 JPEG 的应用程序的最大兼容性。 **JPEG 文件交换格式与标准的 JPEG 交换格式完全兼容。唯一的额外要求是必须在 SOI 标记之后出现 APP0 标记。** JFIF 文件使用 APP0 标记段,并在帧头中限制某些参数,定义如下: - 长度、标识符、版本、单位、X 密度、Y 密度、X 缩略图、Y 缩略图、(RGB)n    ## 编码过程 编码图像的流程  编码帧的流程  编码扫描的流程  编码重启间隔的流程  对最小编码单元进行编码的过程  使用哈夫曼编码 AC 系数的过程  非零 AC 系数的顺序编码过程  ## 解码过程 解码压缩图像数据的过程  解码一帧的过程  解码扫描的过程:  解码重启间隙的过程:  解码 MCU 的过程:  > [!example] 习题助记 > 1. What are markers used for in JIF? > 标识压缩数据格式中不同的结构部分 > 2. Describe the full name of SOI,EOI,SOF,SOS > Start of image marker,End of image marker,Start of Frame marker,Start of Scan marker > 3. What is JPEG file interchange format used for? > 定义分辨率颜色等相关参数,为了能在不同应用和平台转换 > 4. An image contains ___ frame in the cases of sequential and progressive coding processes. > one frame # 视频编码 ## 视频编码标准的制定 > [!hint] 考点 2:视频压缩标准及应用 ### ITU-T 国际电信联盟 - 电信 #### H.261 * 第一个视频压缩标准(1990 年) * 专为综合业务数字网络(ISDN)视频会议设计的。 * 支持 352X288(CIF)和 176X144(QCIF)的分辨率色度分辨率子采样为 4:2:0 * 由于视频电话需要,在仅需较低的复杂性同时进行实时编码和解码。 * 由于它专注于对延迟敏感的双向视频,<span style="color:#ff0000">H.261 仅允许 I 和 P 帧,不允许 B 帧</span>。(B 帧需要等待后帧解码,存在时延) * **基于整数像素精度**进行运动估计运算和搜索范围为 +/- 15 像素。 * 将基于 8x8 块的 DCT 应用于残差。然后在所有 AC 系数上进行**固定**的线性量化用**固定**的量化步长线性量化。 * 首先对量化系数进行游程编码,然后可变长度(霍夫曼)编码。 * 将简单的 2D FIR 滤波器应用于块边缘减少块效应。 #### H.263 * 用于公共交换电话网络(PSTN)可视电话 * H.263(1996)是在 H.261 之后开发的,专注于更好**更低比特率**的视频质量。 * 通过普通电话调制解调器以 33.6 Kbps 的速度传输视频,是其重要的目标之一。 * 目标分辨率为 SQCIF(128x96)至 CIF(352X288) * 与 H.261 类似,但运动矢量略有不同。其**允许为½(“半像素”)的倍数**。使用 16x16 宏块中的**四个 8x8 像素块的四个运动矢量**,而不是宏块的单个运动矢量。 * PB 帧:P 帧和 B 帧(这是从当前编码的 P 帧和后一个先前编码的 P 帧预测而来的)编码为一个单元。 * 使用基于内容的算术编码模式代替霍夫曼编码,对于相同的图像质量,比特率略有降低。 * H.263 通常在相同的比特率下实现大约 3 dB 的改善,或者在相同的 SNR(质量)下将比特率减少 50%。 #### H.264:Advanced video coding 详看 🍂H.264-MPEG4-AVC(高级视频编码) 小节。 ### ISO 国际标准化组织 MPEG 成立于 1988 年,旨在开发在数字存储媒体上移动图片(视频)和关联的音频(光盘)的压缩标准。 #### MPEG-1 * ISO 制定的第一个视频压缩算法 (1991) * 可在获得与 VHS 品质相似的视频和音频 * 比特率 1.5Mb/s * 与典型的视频电话相比,支持电影内容中较重的运动(heavier motion)需要更多的计算资源 * 允许更长的延迟,允许 B 帧 * 使用自适应感知量化。单独的量化比例因子专门应用于每个频点以优化人类的视觉感知。 #### MPEG-2 * 是 MPEG-1 的扩展,支持更高的比特率,更高分辨率和**隔行**扫描图片(用于电视)。(先打奇数行再偶数行) * 是为数字电视开发的比特率较高的应用:DTV,HDTV 和 DVD * 由许多部分组成,包括视频,音频,系统,兼容性测试。 * 在 30:1 左右的压缩率下表现良好。 MPEG-2 以 4~8 Mbps 达到的质量对于消费者视频应用程序是可接受的。 ##### MPEG-2 Profiles and Levels 这些标准旨在解决大量不同的应用程序需要许多不同的工具或功能的问题。典型的应用程序可能仅使用 MPEG 功能的一小部分。 为了实现更有效的实现,MPEG 将功能的子集适当的组合在一起,并定义了一组配置文件和级别。 * 档次(profile)定义了视频语法和功能的子集。 * 在档次(profile)中,级别定义了某些参数的最大范围,例如分辨率,帧速率,比特率和缓冲区大小(下限)。 两个广泛使用的配置文件/级别是: * Main Level at Main Profile (MP@ML):用于压缩 DVD 上使用的常规电视(例如 NTSC 或 PAL)和标清数字电视(SD DTV) * Main Profile at High Level (MP@HL):用于压缩高清电视(HDTV)(1080p)  #### MPEG-4 MPEG-4 与 MPEG-1 和 MPEG-2 完全不同,它的主要目标是提供新功能,而不仅仅是提供更好的压缩。将提供增强的功能: * 支持基于对象或基于内容的表示。这使得可以对视频场景中的不同视频对象进行单独编码,并且允许对视频中的不同对象进行单独访问和操作。请注意,MPEG-4 没有指定如何识别或分割视频中的对象。但是,如果单个对象已知,MPEG-4 提供了一种压缩这些对象的方法。 * 支持对合成或计算机生成的视频对象进行压缩,以及在单个视频中集成自然对象和合成对象。此外,MPEG-4 支持通过差错恢复(例如 Internet 和 3G 无线系统)进行防错通信。因此,MPEG-4 同时支持基于对象和基于帧的视频编码。 * 与场景的交互  Demuxer 用于解析和解码视频和音频对象。场景描述信息描述了解码对象如何组成和渲染以形成最终场景。 与 MPEG-2 和 MPEG-4 简单档次相比,H.264 / AVC 在压缩效率方面取得了重大突破,通常可实现约 2 倍的压缩。 为了满足从低质量,低分辨率监视摄像机到高清电视广播和 DVD 的各种应用,MPEG-4 第 2 部分定义了大约 21 个档次(profiles):Simple, Advanced Simple, Main, Core, Advanced Coding Efficiency, Advanced Real Time Simple 等。最常用的档次是 Advanced Simple 和 Simple(都是 Advanced Simple 的子集)。 ### 当前视频压缩标准 | 年份 | 标准 | 发布机构 | 🔺常用于 | | ---- | ------------------- | ----------------------------------------- | --------------------------------------------------------------- | | 1990 | H.261 | ITU-T |ISDN 上的视频会议, 可视电话 | | 1993 | MPEG-1 part 2 | ISO, IEC | Video-CD 数字存储媒介(CD-ROM)上的视频 | | 1995 | H.262/MPEG-2 Part 2 | ISO, IEC, ITU-T | DVD Video, Blu-ray, Digital Video Broadcasting, 数字电视 | | 1996 | H.263 | ITU-T | 视频会议, PSTN 上的可视电话, Video on Mobile Phones (3GP) | | 1999 | MPEG-4 Part 2 | ISO, IEC | Video on Internet (DivX, Xvid ...), 基于对象的编码, 合成内容, 集成 | | 2003 | H.264/MPEG-4 AVC | Sony, Panosonic, Samsung, ISO, IEC, ITU-T | Blu-ray,HD DVD Digital Video Broadcasting, 无线, 因特网, 电影, 视频电话, 视频会议 | ## 标准化的范围 > [!hint] 考点 31:视频编码和解码架构:normative, informative 视频压缩系统由一个编码器,压缩比特流和解码器组成。 标准限定的范围有限,是为了在确保互操作性同时尽可能实现差异化: * <span style="color:#ff0000">标准指定比特流语法和解码过程</span> * 标准不限定编码过程或具体解码器的实现。  > [!hint] 考点 32:MPEG 编码结构、MPEG 语法 ## MPEG 编码结构 MPEG 以单元层次结构编码视频,这些单元称为**序列、图像组 (GOPs)、图像、切片、宏块和 DCT 块**: * 对 16x16 像素的宏块执行 MC 预测(运动补偿预测) * 这些宏块组成一个切片 * 一帧中的所有切片均包含一张图片,连续的图片形成一个 GOP。 * 所有 GOP 形成一个序列。  ### GOP 视频帧被分组为编码单元,称为图像组 (GOPs)。 GOPs 具有重新初始化编码中使用的时间预测的属性。 **GOP 的第一帧总是以帧内模式编码,称为 I 帧**  用 I 帧通过正向预测或双向预测得到 P 帧或 B 帧。 GOP 长度通常在 9 到 15 帧之间。 **每个 B 帧都取决于过去帧和一个将来帧,这意味着将来帧必须是在当前 B 帧可以被解/编码之前被解/编码。** **编码后的视频数据以编码顺序放置在数据流中,而不是显示顺序**。 ### I P B 帧编码属性 I,P 和 B 帧的编码通常需要不同数据量。 - I 帧需要大量数据,因为它们的编码与其他框架无关。 - <span style="color:#ff0000">P 和 B 帧通常需要的数据少于 I 帧(时间预测)</span>。 - B 帧的编码数据通常少于 P 帧,因为: - 同时使用前后参考帧,可以形成更好的预测。 - 以较低的质量编码 B 帧通常不会带来负面影响,B 帧的编码质量较低不会影响序列中的其他帧。 ### 宏块 MPEG 使用 16x16 像素 MC 预测来减少时间视频中固有的冗余。 在 I 帧中,必须以帧内模式对每个宏块进行编码。 在 P 帧中,每个宏块都可以使用前向编码预测或帧内模式。 在 B 帧中,每个宏块都可以前向编码,后向或双向预测或帧内模式。 为每个前向和后向预测指定一个 MV(motion vector)宏块,同时为每个双向指定两个 MV 预测宏块。 ### DCT 块 每个宏块(intra or inter)被划分为 8x8 像素块。 为每个块计算 2D-DCT。 DCT 系数被单独量化。 量化系数经过 zigzag 扫描,游程长度进行编码,结果对(游程长度,幅度组成的一对)经过霍夫曼编码并输出至比特流。 还有一些块间和宏块间处理。 ### Slices MPEG 编码要求每个宏块都属于一个切片,所有切片都构成整个图片。 <span style="color:#ff0000">切片是一系列任意数量的连续宏块:</span> * <span style="color:#ff0000">每个切片至少应包含一个宏块。</span> * <span style="color:#ff0000">切片不得重叠。</span> * <span style="color:#ff0000">切片的位置可能因图片而异。</span> 这提供了一种用于预测宏块中某些参数的结构,同时保持一定程度的错误弹性。 在 I 帧中,DCT 系数的 DC 值在一个**片(Slice)内**从块到块被差分编码。(JPEG 是整幅图做差分编码) 在 P 和 B 帧中,运动矢量在片内从宏块到宏块进行差分编码。 如果位流中发生错误,则切片中的剩余数据将丢失。 但是,解码器可以通过搜索下一个切片起始码,重新同步位流并继续解码过程来恢复。 ### MPEG Syntax **序列头**指定图片的高度/宽度,以及样本宽高比,帧速率,比特率和缓冲区大小序列。 如果未使用默认的量化器,则还包括量化矩阵。 **GOP 头**指定时间代码并指示 GOP 是否打开或关闭。 **图像头**指定**时间参考参数**,图片类型(I,P 或 B)以及缓冲区充满度。 如果是使用时域预测,它还描述了运动矢量精度(完整或半像素)和运动矢量范围。 **切片头**指定了切片开始的宏块行,以及 DCT 系数的初始量化器比例因子。 **宏块头**包含一个标志,**指示是内部还是帧间编码**。 对于帧间编码,它包含编码的运动矢量,这个运动矢量会基于相对于先前的运动矢量进行差分编码。 可以在宏块级别上调整量化器比例因子。1bit 用于指定是否调整因子。 序列、GOP、图片、切片的标头以这些代码开头: * 例如,通过简单地检查编码数据流而无需解析或解码数据,就能找到第二个 GOP 中第二张图片的第二切片编码的数据 * 允许对压缩比特流的随机访问 * 提高容错能力 > [!Example] 习题助记 > MPEG-1 is used in **VCD** ,MPEG-2 is used in **DVD**. > MP3 is a lossy compression method. > H.261、H.263 主要用于可视电话 > The bit stream synatax is specified in MPEG video coding standard. > The encoding process is **NOT** specified in MPEG coding standard. > MPEG-1 allows B frames. > P frames require **LESS** data than I frames because of temporal prediction. > In video coding the position of slices may change from picture to picture. > In video coding **the Picture header** specifiles the temporal reference parameter # 🍂H.264-MPEG4-AVC(高级视频编码) > [!hint] 考点 33:H.264 编码结构、基线档次、主档次、向量块大小、新特性、视频编码层级和网络抽象层 在过去十年中,视频编码领域最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频团队(Joint Video Team,JVT)定义的 H.264/MPEG-4 AVC 标准。ITU 从 1997 年开始使用新的编码工具开展了 H.26L(for long term)的工作。结果令人印象深刻,因此 ISO/IEC 决定与 ITU 合作,采用一个共同的标准,成立了联合视频团队。ITU 于 2003 年 5 月批准了新的 H.264 标准。ISO 于 2003 年 10 月批准了该标准,命名为 MPEG-4 第 10 部分,即高级视频编码(AVC)。 块框图和特性:  H.264/AVC 在压缩效率方面取得了重大突破,通常相对于 MPEG-2 和 MPEG-4 简单档次实现了大约 2 倍的压缩比。 在 H.264 标准化时,它支持三种档次(profiles):基线档次、主要档次和扩展档次。 - 后来,一项名为保真度范围扩展(FRExt)的修正引入了四个额外的配置,称为高级档次。 - 最初,基本档次和主档次引起了最大的关注。 基本档次需要较少的计算和系统内存,并且针对低延迟进行了优化: - <span style="color:#ff0000">基本档次不包括 B 帧(由于固有时延)</span>或 **CABAC(由于计算复杂性**)。 - 基本档次非常适合视频电话应用以及其他需要成本效益的实时编码应用。 主档次旨在为广播和内容存储应用提供尽可能高的视频质量和最低的比特率。 标准编解码器中的关键压缩特性:   应用趋势:  ## H.264/AVC 的目标和应用 视频编码专家组(VCEG),ITU-T SG16 - H.26L 项目(1998 年初),最初的重点是视频会议和电话通信。 - 目标是将编码效率提高一倍,超过任何其他现有的视频编码标准。 应用领域: - 有线、卫星、地面数字视频广播 - 媒体存储、DVD、蓝光 DVD 等 - 互联网流媒体、视频电话在 3G/4G 网络上 - 视频会议 - 数字视频监控、数字电影等 ## 与其他标准的关系 在 ITU-T 和 MPEG 中都将批准相同的设计。 在 ITU-T 中,这将是一个新的独立标准: - ITU-T 推荐标准 H.264。 - ITU-T 系统(H.32x)将进行修改以支持它。 在 MPEG 中,这将是 MPEG-4 套件中的一个新的“部分”: - 与之前的 MPEG-4 视觉编解码器设计分开。 - 新的第 10 部分称为“高级视频编码”(类似于 MPEG-2 中的“AAC”位置,作为独立的编解码器)。 与之前的标准不兼容(包括之前的 MPEG-4 视觉规范 - 核心技术不同)。 MPEG-4 系统/文件格式正在进行修改以支持它。 IETF 正在研究 RTP 有效载荷的封装。 ## 新功能和共同元素 视频编码层基于混合视频编码(hybrid video coding),与其他标准在理念上类似,但存在重要的区别。 新的关键功能包括: - 增强的运动补偿 - 用于变换编码的小块 - 改进的去块滤波器 - 增强的熵编码 与之前的标准相比,H.264/AVC 具有以下共同元素: - 16x16 宏块 - 块运动位移 - 块变换 - 标量量化 - I、P 和 B 帧类型 相对于之前的标准,在相同感知质量下,H.264/AVC 可以实现约 50% 的比特率节省。 ## 档次 受限基准档次(Constrained Baseline Profile,CBP): - 主要用于视频会议和移动应用等低成本应用,于 2009 年开发。 - 对应于基准档次、主档次和高级档次之间共同支持的功能子集。 基准档次(Baseline Profile,BP): - 主要用于需要额外数据丢失鲁棒性的低成本应用,如视频会议和移动应用。 - 包括所有受限基准档次支持的功能,以及用于提高鲁棒性的额外功能。 - 所有受限基准档次的比特流也被视为基准档次的比特流,因为这两个档次共享相同的档次标识码值。 主档次(Main Profile,MP): - 用于使用 MPEG-4 格式的标准定义数字电视广播,符合 DVB 标准定义。 扩展档次(Extended Profile,XP): - 用于流媒体视频档次。 - 具有相对较高的压缩能力和一些额外的技巧,以提高对数据丢失和服务器流切换的鲁棒性。 高级档次(High Profile,HiP): - 于 2004 年开发,用于广播和光盘存储应用,特别适用于高清电视应用(例如,已被蓝光光盘存储格式和 DVB 高清电视广播服务采用)。 高 10 档次(High 10 Profile,Hi10P): - 在高级档次的基础上增加了对每个样本解码图像精度高达 10 位的支持。 高 4:2:2 档次(High 4:2:2 Profile,Hi422P): - 针对使用隔行视频的专业应用。 - 在高 10 档次的基础上增加了对 4:2:2 色度子采样格式的支持,同时使用高达 10 位的解码图像精度。 高 4:4:4 预测档次(High 4:4:4 Predictive Profile,Hi444PP): - 在高 4:2:2 档次的基础上增加了对 4:4:4 色度采样的支持,每个样本的解码图像精度高达 14 位。 - 此外,还支持高效的无损区域编码和将每个图像编码为三个独立的色彩平面。 ### 基准档次 特点包括: - <span style="color:#ff0000"> I 和 P 帧类型(不包括 B 帧,因为时延较大)</span> - 循环内去块滤波器 - 1/4 像素级的运动补偿 - 基于树状结构的运动分割,最小块大小为 4x4 - 基于 VLC 的熵编码 一些增强的错误容忍特性包括: - 灵活的宏块排序/任意切片排序 - 冗余切片 - 主要用于视频会议和无线应用 ### 主档次 主档次的特点包括: - 所有基准档次的特点,除了增强的错误容忍特性 - <span style="color:#ff0000">B 帧类型</span> - <span style="color:#ff0000">CABAC(上下文自适应二进制算术编码)</span> - 宏块级别的帧/场切换 - 对 B 帧和 P 帧预测进行自适应加权 - 支持隔行图像扫描 主档次主要用于广播应用。 ## 基本宏块编码结构  ## 运动补偿 运动补偿的特点包括: - 不同的块大小和形状用于运动补偿 - 1/4 像素精度 - 6 点滤波器用于 1/2 像素精度 - 简化滤波器用于 1/4 像素精度 - 多个参考帧 - 时间反转运动和广义 B 帧 - B 帧预测加权 ## H.264/AVC 编码数据格式 H.264 区分视频编码层(VCL)和网络抽象层(NAL)。 编码过程的输出是 VCL 数据(表示编码视频数据的一系列比特),在传输或存储之前将其映射到 NAL 单元。 分别指定 VCL 和 NAL 的目的是区分编码特定的功能(在 VCL 中)和传输特定的功能。 每个 NAL 单元包含原始字节序列负载(RBSP),即对应于编码视频数据的一组数据和头部信息。 编码的视频序列由一系列 NAL 单元表示,可以通过基于数据包的网络、比特流传输链路或存储在文件中进行传输。    NAL 单元的第一个字节是一个头部,包含有关该包类型的信息。
1 | ubyte forbidden_bit: 1; // set to 0 |
SPL= 10 \log_{10}{\left( \frac{p}{p_{0}} \right)^2}, p_{0}=20\mu Pa
p0 为音频在 2kHz 左右的听觉阈值处的声压。 声音也可以被声音强度 $I$ 来描述,表示声波单位面积的功率,与 p 的平方成正比。 声压等级 SPL 也可以被定义为:
SPL= 10 \log_{10}{\left( \frac{I}{I_{0}} \right)}, I_{0}=10{-12}W/m2
$I_0$ 和 $p_0$ 对应。 ## 响度 Loudness 响度等级定义为,在正面入射平面场下,被感知到的与所检测的声音一样响亮的 1 kHz 声音的级别。 <span style="color:#ff0000">响度取决于强度、持续时间、时间和频谱结构。</span> 单位为 phon,描述了自变量为频率的函数中一条等响曲线。下图每条曲线指的是同样的响度。  在高音量水平下,以 phon 为单位测量的响度与以 dB 为单位测量的声强之间的差异减小。  ## 掩蔽现象 ### 同时掩蔽(频域掩蔽)  > 频域掩蔽是指在掩蔽声与被掩蔽声同时存在时产生的掩蔽效应,又称为同时掩蔽。在这种情况下,掩蔽声在掩蔽效应发生期间持续影响着被掩蔽声,形成一种强烈的掩蔽效应。通常情况下,频域中的一个强音会掩盖附近较弱的声音,而距离强音较近的弱音往往更容易被掩蔽;相反地,距离较远的弱音不太容易受到掩蔽效应的影响。图 3 解释了频域掩蔽现象,可以看到一个强信号掩蔽了两个接近其频率的弱信号,低于掩蔽域值的弱信号将无法听见,这导致听觉的安静阈值在掩蔽作用下提高。一般来说,低频声音更容易掩蔽高频声音。 ### 非同时掩蔽(时域掩蔽) > 时域掩蔽效应是在时域中相邻的声音之间互相的掩蔽效应,或被称为非同时掩蔽。时域掩蔽又分为超前掩蔽(pre-masking 或 backward masking)和滞后掩蔽(post-masking 或 forward masking)  虚线之间是掩蔽声音实际的存在时间。 > 声音信号大多数时候是非稳态的瞬时信号,声压级随着时间变化很快,即强音后面跟着弱音,弱音后面又可能跟着强音。比较强的声音往往会掩蔽随后到来的较弱音。时域掩蔽又分为前掩蔽和后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为前掩蔽;否则称为后掩蔽。前掩蔽效应要大于后掩蔽效应,前掩蔽发生作用的时间大于后掩蔽的时间。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,时域掩蔽也随着时间的推移很快衰减,是一种弱掩蔽效应。 ### 窄带噪声掩蔽  信号掩蔽比(signal to mask ratio, SMR)。 > 注意:信噪比是 SNR(Signal-to-noise ratio) > 窄带噪声通常是指带宽等于或者小于听觉临界频带的噪声。在图 1 中,以不同中心频率的窄带噪声作为掩蔽声时的听阈曲线,窄带噪声的中心频率分别为 0.25KHz,1KHz,4KHz,带宽分别为 0.1KHz、0.16KHz 和 0.7KHz,图上部水平虚线为掩蔽噪声声强级 60dB,中部实线表示刚好可听到的纯音声级,下部的虚线是听觉安静域值。从图中可以看出,被掩蔽纯音的频率偏离掩蔽噪声中心频率越大,掩蔽效应下降越快;因为是平滑以后的数据,故而不呈锯齿状。信号分量和掩蔽域值之间的声级差,称信号掩蔽比 (signal to mask ratio, SMR),SMR 越大,掩蔽效果越小。上图中,0.25KHz,1KHz,4KHz 的最小 SMR 分别为 2、3 和 5dB,最小 SMR 是设计音频编码器很重要的参数。 下图表示不同级别的掩蔽音调下,1kHz 窄带噪声掩蔽器的掩蔽阈值。  ### 纯音掩蔽  > 从图中可以看出,当被掩蔽音声级较低时,掩蔽域值向低频扩展(斜率较小);而在声级较高时则相反。当掩蔽音声级为 90dB 时,掩蔽曲线峰值为 75dB,信号掩蔽比为 15dB。与噪声相比,纯音在掩蔽方面具有较大的信号掩蔽比(SMR),这意味着噪声比纯音具有更好的掩蔽效果。纯音的掩蔽效应基本符合以下几个规律:低频纯音容易掩蔽高频纯音,而高频纯音相对较难掩蔽低频纯音;频率相近的纯音容易互相掩蔽;当增加掩蔽声的声压级时,掩蔽阈值会提高,同时被掩蔽的频率范围也会扩展。 ### 临界带宽 > 临界带宽指临界频带的带宽,即恰能产生变化的频率通带(频段)的宽度值。如响度测试中指恰能使声音响度产生变化的带宽值:当声音由一定频带组成时,它的响度变化呈现出下图所示的规律:带宽从很窄到越来越宽的过程中,声音整体响度开始时保持不变;当到达一个特定的带宽后,声音整体响度会随着带宽的变宽而变得更响。 >   Threshold of a narrow band noise centered between two sinusoidal maskers at a level of 50dB as a function of the frequency separation between the two sinusoidals. ### 掩蔽 Masking **掩蔽曲线的水平在接近遮蔽音调频率的地方最高**。 当测试信号频率超过临界带宽远离遮蔽音调频率时,掩蔽曲线迅速下降。 **掩蔽频率曲线的形状取决于掩蔽音调的频率和水平**。 掩蔽曲线在很大程度上取决于掩蔽音调是音调还是噪声样式。 ## 音频编码的心理声学模型 ### 巴克刻度 Bark Scale > 巴克刻度是一种心理声学的尺度。 > > 临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。听觉系统中,耳蜗起着频谱分析的作用,基底膜上特定位置点是对某一特征频率(Characteristic Frequency, CF)的响应最大,当声波偏离 CF 时,该点的响应减少,因此基底膜上每一点可等效成具有特定中心频率(CF)的带通滤波器,整个听觉系统可等效成一系列具有连续 CF 的、相互交叠的带通滤波器,称为“听觉滤波器”。临界频带就是听觉系统带通滤波功能的反映,听觉滤波器的带宽即为临界带宽。 > > 概括地说,临界频带是声音频率带,在临界频带中第一个单音感知度会被第二单音的听觉掩蔽所干扰。根据相关的心理声学的研究,由于人耳的特殊结构,在同一个临界频带内信号容易发生掩蔽效应,即:主要信号容易被能量大并且频率接近的掩蔽信号所掩蔽。因此我们可以认为 Bark 域越近的信号越容易产生掩蔽效应。 > > 声学研究中,人们使用听觉滤波器来模拟不同的临界频带。后来研究者发现人耳结构大致会对 24 个频率点产生共振,根据这个结论 Eberhard Zwicker 在 1961 年针对人耳特殊结构提出:信号在频带上也呈现出 24 个临界频带,分别从 1 到 24。这就是 Bark 域。 > > 通常将人耳可听范围内的 20Hz~16kHz 分成 24 个临界频带,用临界频带级来表示临界频带的宽度,单位为巴克(Bark):Bark=一个临界频带的宽度。当频率 f<500Hz 时,1 Bark=f/100,临界带宽几乎恒定为 100Hz;当频率 f>500Hz 时,1 Bark=4log(f/100), 临界带宽随中心频率的升高而增加,约为中心频率的 20%。 >  每个临界带宽(频率)对应于耳朵中基底膜上的固定距离。我们可以定义基底距离测量中的长度单位为一个临界带宽。 ### 掩蔽传播模型  Excitation patterns for narrow-band noise signals centered at different frequencies and at a level of 60 dB.  Excitation patterns for narrow-band noise signals centered at 1kHz and at different levels.  The curve in the diagram be expressed as a function of the Bark scale difference between the maskee and masker frequency. ### 掩蔽曲线  ### MP3 的心理声学模型  ### 感知熵 感知熵(Perceptual entropy)PE:在不引入任何感知差异的情况下,对信号进行编码所需的每个频率样本的平均比特数。  $n_b$ 是分区带 b 中的频率线数量,$energy_b$ 是分区 b 中的信号能量,$threshold_b$ 是掩蔽阈值。 PE 可以用于确定 MDCT 或 attack 的块类型(PE>1800 比特表示短窗口) ### Block Switching State Diagram  ## 本章参考的外部资源 * [心理声学声掩蔽效应及应用 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/647121839) * [听力学小课堂 | 名词释义(15):临界带宽、临界频带-苏州海卡缔听力技术有限公司 (heacad.cn)](http://www.heacad.cn/NewsDetail/3240260.html) * [声学感知刻度(mel scale、Bark scale、ERB)与声学特征提取(MFCC、BFCC、GFCC)_hz2erb_凌逆战的博客-CSDN博客](https://blog.csdn.net/qq_34218078/article/details/125145458) * [mp3是如何骗过你耳朵的?【差评君】_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1D5411S71K/?spm_id_from=333.999.0.0&vd_source=e03d48176855fc5349b27aef691f9cdb) # 🍂时频映射 音频编码框图:  T/F mapping: FFT, PQMF, MDCT 傅里叶变换 - 1822 年,傅里叶指出实时信号可以表示为具有不同频率的信号的总和。 - 傅里叶变换定义如下:  - 傅里叶逆变换等于:  傅里叶级数 - 对信号在有限时间间隔上的傅里叶变换可以用来在时域中重构原始信号。 - 实际上,我们不需要完整的傅里叶变换数据来完全在时域中重构信号。 - 我们只需要在离散频率点 f=k/T(其中 k 是整数)处的 X(f) 值。 - 我们通过将窗口信号替换为在时间间隔从 -T/2 到 T/2 内相等的信号,但在该间隔之外周期性地重复,来进行数据压缩。 对于生成的周期信号,我们可以定义傅里叶级数:  - $X[k]$ 只是时间限定信号在离散频率集合 $f=k/T$ 处的傅里叶变换。 - 我们可以使用以下公式重构 x(t): 采样定理 - 假设一个信号在频率范围从 -Fmax 到 Fmax 内具有频率内容。 - 如果我们选择某个频率间隔 Fs≥2Fmax,并周期性地延续信号的频谱范围超出从 -Fs/2 到 Fs/2 的范围。 - 从傅里叶级数的定义可以想象,这个频率周期函数只有离散时间分量 $x[n]$(如果我们定义 $T=1/F_s$,则有 $x[n]=x(nT)$)。 在时域中对信号进行窗函数处理 - 假设我们开始处理一个带限信号,并以采样频率 Fs≥2Fmax 对信号进行采样。 - 假设我们想要使用有限的样本块进行计算,以便在等待信号完成之前开始进行计算。 - 实现这个目标的一种方法是将原始的非有限信号 x(t) 与矩形窗函数相乘。 矩形窗函数 - 矩形窗函数 WR(t) 在 t=0 到 t=T 之间等于 1,在其他地方等于零。 - 我们可能想知道这个时限信号是否仍然足够带限。 - 时限信号的傅里叶变换等于原始信号的傅里叶变换与 WR(t) 的傅里叶变换 WR(f) 的卷积。 - WR(f) 的傅里叶变换随着频率的增加下降得非常缓慢,这意味着时限信号的傅里叶变换很可能不再足够带限。 - 如果我们使用这个窗函数,会发生混叠现象。 正弦窗函数 - 矩形窗函数的问题在于窗口边缘处的截断非常尖锐。 - 尖锐的变化会导致高频成分。 - 在时域中,更好的窗函数选择是在边缘处缓慢衰减,以避免尖锐的不连续性。 - 正弦窗函数为 ws(t) = sin(πt/T),0≤t≤T。当应用于离散时间信号的 N 个样本时,窗函数变为 ws[n] = sin(π(n+1/2)/N),其中 n=0,...,N-1。 - 从频谱中可以看出,主瓣比矩形窗函数更宽,但频率幅度下降得更快。 汉宁窗函数 - 汉宁窗函数在边缘处没有正弦窗函数那样的突变。 - 汉宁窗函数为 wH(t) = 1/2(1-cos(2πt/T)),0≤t≤T。 - 当应用于离散时间信号的 N 个样本时,窗函数变为 wH[n] = 1/2(1-cos[2π(n+1/2)/N]),其中 n=0,...,N-1。 - 从频谱中可以看出,汉宁窗函数的衰减速度更快(有助于避免混叠),但其主瓣的宽度更大(对于准确的频率识别不利)。 - 在窗函数设计中,我们面临权衡:低旁瓣能量(与杂散频率成分相关)和主瓣的宽度(窗函数的频率分辨率)。 > [!hint] 考点 17:FFT 和复杂度 快速傅里叶变换(FFT) - 直接计算 DFT 需要 $N^2$ 次复数乘法和加法运算。 - 令人惊讶的是,FFT 允许我们在大约 $N×log_2N$ 次复数乘法/加法运算中完成完全相同的计算。 - 以 N=1024 为例,FFT 只需要 DFT 所需计算时间的 1%。 - 这个算法最早由高斯在 1880 年提出,后来由库利和图基在 1965 年重新发现。 > [!hint] 考点 15:傅里叶变换、傅里叶级数、离散时间傅里叶变换、离散傅里叶变换 | | 时域 | 频域 | | ------------------ | ---------------------- | ------------------ | | 傅里叶变换 | 连续、无限 | 连续、无限 | | 傅里叶级数 | 有限信号周期延拓,连续 | 离散 | | 离散时间傅里叶变换 | 离散 | 有限频谱的周期延拓 | | <span style="color:#ff0000">离散傅里叶变换</span> | 离散,有限 | 离散,有限 | > [!hint] 考点 16:Windowing | | 去混叠 | 频率选择性 | | ------ | ------ | ---------- | | 矩形窗 | 最差 | <span style="color:#ff0000">最好</span> | | 正弦窗 | 中等 | 中等 | | 汉宁窗 | 最好 | 最差 | > [!hint] 考点 18:MDCT:重叠相加技术、长窗、短窗 MDCT 重叠相加技术 - PQMF 通常被视为时频银行(Time Frequency banks)。相应的编码称为子带编码。 - 如果在音频编码过程中,将时域的数据样本映射到频域的数据样本,例如使用 FFT,这种音频编码方法称为变换编码。 - 我们已经知道,在进行 DFT 之前,音频信号会进行窗函数处理以避免混叠效应,在解码器中,我们需要知道如何恢复原始信号。 - 除了应用逆离散傅里叶变换之外,我们还需要将窗函数的影响从数据中去除。 - 第一种方法是将逆 DFT 的输出除以窗函数系数。 - 问题在于量化/反量化会在信号中引入小的误差。 - 这些误差可能是听不到的,但是将逆 DFT 的输出除以窗函数可能会放大数据块边缘附近的误差,因为窗函数在该区域被设计为平滑地趋近于零。  在编码器中,块输入信号是重叠的。在解码器中,我们重叠并相加输出信号。 窗函数的设计使得在没有量化的情况下可以恢复原始信号。  重叠量 $N-M ≤ N/2$ 在编码器中,每个连续的数据块从前一个数据块的起始位置后的 M 个样本开始,并包括 M 个新的数据样本。 在解码器中: - 我们将逆变换和窗函数处理后的数据的前 M 个样本传输到输出缓冲区。 - 将剩余的 N-M 个样本存储到存储缓冲区中。 - 我们将前一个数据块存储缓冲区中的 N-M 个样本与当前数据块输出缓冲区的前 N-M 个样本相加。 - 然后,我们将输出缓冲区的 M 个样本发送到解码器的输出流中。 我们选择在解码器中进行窗函数处理的原因是: - 使逆变换块边缘附近的量化噪声较小; - 分析和合成阶段可以对称地进行。 对于分析和合成窗函数 $wa[n]$ 和 $ws[n]$,有以下要求: - 在没有重叠的任何块区域中, - 在重叠区域中, 该条件将一个块的窗函数的右侧与下一个块的窗函数的左侧相关联。i 是块的索引。 窗的选择: 如果分析和合成窗函数是相同的,我们有:  一个满足这个条件的简单窗函数是:  正弦窗口可能无法为特定应用提供频率分辨率与泄漏之间的权衡。实际上,我们可以通过一种归一化过程来修改任何窗口函数,以满足重叠相加条件。  如果 w'(p) 具有控制其形状的参数,我们可以调整这些参数以调节归一化窗口以适应特定应用。归一化过程可以使用 Kaiser-Bessel 窗口作为核窗口,并在相邻块之间具有 50% 的重叠来进行,从而创建所谓的“Kaiser-Bessel 衍生”窗口。 音频编码中的窗口考虑因素: - 在音频编码中,我们希望: - 最大化频率分离。 - 最小化音频阻塞效应的影响。 - 所选的窗口长度和形状与这两个属性有关。 - 给定输入数据到滤波器组的块大小,窗口形状的选择决定了滤波器组的频谱分离程度: - 正弦窗口比α=4 的 KBD 窗口具有更好的近端选择性(主瓣更窄)。 - 正弦窗口的侧瓣能量的抑制程度较差。 根据输入音频信号的特性,正弦窗口或α=4 的 KBD 窗口可能为信号表示提供更好的频率分辨率: - 对于高度音调的信号,近端选择性比频率表示中的最终抑制更重要。 - 如果信号的频率分量之间存在较大的分离,更高的最终抑制可以更好地利用信号分量的掩蔽效应。 改进离散余弦变换(MDCT): - 为了减少窗口化引起的阻塞效应,我们希望窗口边缘的过渡到零尽可能平缓。 - 这意味着当我们设置大的重叠区域时,阻塞效应最小。 - 然而,我们需要对每 M 个新的时间样本输入编码器的样本进行 N 个样本的变换数据的编码、传输/存储。 - 在从冗余和无关信息去除中获得任何编码增益之前,我们将数据速率增加了 N/M 倍。 - 为了解决这个问题,开发了 MDCT。 - MDCT 是一种替代 DFT 的变换,允许块之间有 50% 的重叠,而不增加数据速率。  # MP3 的编码与解码 Normative:必须的,必要的 Informative:不必的 > [!hint] 考点 22:MP3 的编解码器过程 ## MP3 编码器(Informative Elements) 编码器概览:  ### 时频映射 PQMF:在一个帧中,对 1152 个 PCM 音频样本进行滤波,使得每个子带包含 36 个子带样本。 窗函数:在进行 MDCT 之前,对子带样本应用了四种不同的窗函数。 MDCT:使用两种不同的 MDCT 块长度,一种是长块,包含 36 个样本,另一种是短块,包含 12 个样本。**短块适合变化较快的信号,长块适合平稳信号。**  ### 块模式 * 注意,短块长度是长块长度的 1/3。在短块模式下,三个短块替代一个长块,这样无论块类型如何,音频样本帧的 MDCT 样本数量保持不变。 * 对于给定的音频样本帧,MDCT 可以全部具有相同的块长度(长块或短块),或者采用混合块模式。 * 在混合块模式下,MDCT 对于两个较低频率子带使用长窗口,对于 30 个较高频率子带使用短窗口。这种模式在不牺牲较高频率的时间分辨率的情况下,为较低频率提供更好的频率分辨率。 应用于 1152 个 PCM 样本的信号处理:  ### 去混叠  在量化之前,应用了一种抗混叠处理来消除在分析 PQMF 中引入的混叠,以减少传输的信息量。 这种减少是通过一系列蝶形计算来实现的。  ### 非均匀量化   <span style="color:#ff0000">global_gain:全局量化步长。控制比特率。</span> scale_factor:子带因子控制噪声。 在量化之前,将 MDCT 系数提升到 3/4 的幂,以在量化器值的范围内提供更一致的信噪比。 scale_factor 用于调整量化噪声,以适应掩蔽阈值的不同频率轮廓。 ### 哈夫曼编码 有序的频率线被分为三个不同的区域,分别称为“rzero”、“count1”和“big_value”区域。 * 连零区域:从较高的频率开始,编码器将连续的全零值识别为一个区域,即“rzero”区域。“rzero”区域必须包含偶数个零值。 * 数 1 区域:4 个一起编码。由一系列仅包含 -1、0 或 1 的值组成。这个区域的两个霍夫曼表每次编码 4 个值,因此值的数量必须是 4 的倍数。 * big_value 区:2 个一起编码。涵盖了所有剩余的值,称为“big_values”区域。这些值与 30 个霍夫曼表一起进行编码。这个区域进一步分为三个子区域,每个子区域都有自己特定的霍夫曼表。 ### 比特分配(两层嵌套循环) 外层循环:  内层循环:  Quantizer_change is the change of global_gain. > [!hint] 考点 20:MP3:比特流格式、MP3 采样频率、stereo/joint channel/dual channel/single channel、哈夫曼编码域,比特池 ### 比特流格式 为了生成符合 MP3 标准的比特流,霍夫曼编码的频率线、辅助信息和帧头被组合成比特流。 比特流被分割成帧,每帧表示 1152 个音频样本。 帧头描述了编码音频所使用的比特率和采样频率。 辅助信息告知使用的块类型、霍夫曼表、subband gain 和子带比例因子。 ### 比特池 使用“比特储备池”方法来满足编码器对编码比特的时变需求。 编码器只能从过去的帧中借用比特,而不能从未来的帧中借用比特。 MPEG/Audio Layer 3 比特流使用一个 9 位指针,称为 main_data_begin,来表示当前处理帧的主数据的起始点。  ### Stereo Encoding 联合立体声 中侧立体声 强度立体声 ## MP3 解码器(Normative Elements) MPEG 音频第三层解码概述:  解码器主要由三个部分组成:“比特流解码”,“逆量化”和“频率到时间映射”。 - 输入的编码比特流通过第一部分进行同步,并提取每帧的量化频率线和其他信息。 - 接下来,量化的频率线进行反量化。 - 最后,应用逆 MDCT 和合成 PQMF 来获得以 PCM 格式输出的信号。 MP3 解码器的框图:  比特流解码框图:  ### 辅助信息解码的过程 - 帧中的辅助信息包含解码主数据所需的必要信息。 - 它包含有关在 Huffman 解码过程中使用哪些霍夫曼表以及比例因子的信息。 - 它还包含主数据开始的位置信息。 ### 哈夫曼信息解码 - Huffman 信息解码块的任务是设置 Huffman 解码块所需的所有参数。 - 第一个任务是从辅助信息中收集有关 Huffman 编码比特的数据。这包括在比特流中找到 Huffman 编码的比特,并确定每个频谱区域分区所使用的 Huffman 表。 - 此外,该块必须确保生成所有频率线,而不管 Huffman 编码比特中描述了多少频率线。当出现少于 576 个频率线时,Huffman 信息解码块必须执行零填充以填补数据的不足。 哈夫曼解码: - 由于 Huffman 编码是一种可变长度编码方法,没有尝试将 Huffman 编码比特中的各个码字分开,因此,如果不从已知为码字起始点的 Huffman 编码比特开始解码,无法识别 Huffman 编码比特中间的单个码字。 - 如果在一串 Huffman 编码比特中发生错误,剩余的编码比特无法正确解码。**我们可以直接找下一帧的同步字,那么这一帧就去掉。** 子带因子解码: ### 反量化(Dequantization)或去缩放(Descaling) 目的是重构编码器中由 MDCT 块生成的频率线的感知相同的数据。 长窗口的计算公式为:  短窗口的计算公式为:  反量化: - <span style="color:#ff0000">全局步长(global_gain)定义了在一个 granule 内用于一个声道的量化步长</span>。 - 编码器中的比例因子(scalefactors)使用步长为 2 或 sqrt(2) 进行量化,可以通过 scalefac_scale 标志的值来识别,如果 scalefac_scale=0,则 scalefac_multiplier=0.5,否则 scalefac_multiplier=1。 - pretab 和 preflag 变量仅在长窗口的情况下使用。一个表格为 pretab 变量的每个比例因子带指定了一个单独的值。 - 对于短窗口,通过 subblock_gain 指定了一个 gain factor。 ### 重新排序(Reordering) 通过解量化生成的频率线并不总是以相同的方式排序。 在长窗口的 MDCT 块中,它会首先按子带,然后按频率生成排序的频率线。 为了增加频率线的 Huffman 编码效率,在短窗口中,频率线首先按子带排序,然后按频率排序,最后按窗口排序。 ### 立体声处理 在解量化之后,重构的值在进入合成滤波器组之前进行中侧处理(MS)。 在中侧立体声(MS)模式下,传输的是归一化的中侧(middle/side)通道值 Mi/Si,而不是左右(left/right)通道值 Li/Ri。因此,可以使用这些 Mi/Si 值来重构 Li/Ri。  ### 去混叠  ### 反向 MDCT 从去混叠块中处理的频率线通过 IMDCT 块进行处理。IMDCT 的表达式如下所示:  Xk 表示频率线,对于短块 n=12,对于长块 n=36。 根据 block_type 值,xi 与之前定义的窗口之一相乘:  ### IMDCT 的重叠相加  ### 合成多相滤波器组  ## 编码语法(Normative Elements) ### 位流格式 一个 MP3 位流被组织成音频帧,其中包括五个部分:头部、CRC、辅助信息、主数据和附加数据。 单声道的辅助信息块长度为 136 位,双声道的辅助信息块长度为 256 位。 
1 | // 音频帧 |
1 | header() |
1 | error_check() |
1 | audio_data(){ |
1 | for (gr=0; gr<2; gr++) |
1 | struct coded_word { |
1 | struct quad_word { |
1 | struct FILE { |
1 | // 创建类型语法: |
1 | < |
1 | local int i, total = 0; |
1 | // 以下两种方法将读取字符串,直到遇到「0」字节 |
1 | local char str[15] = "First"; |
1 | // 语法:在变量后添加以下标签 |
1 | // 在这些函数后定义变量 |
1 | // 生成新类型myStruct,但不声明任何变量 |
1 | // 实例s只生成两个变量:a、b或a、c |
1 | struct { |
1 | typedef struct { |
1 | // 以下Union大小为8字节 |
1 | struct VarSizeStruct (int arraySize) |
1 | <data type> <variable name> [ <expression> ] // 例子:int myArray[15]; |
1 | // 与ANSI C不同的是,数组的大小可以为任意表达式(包括变量、函数或操作符) |
1 | int x; int x; int x; |
1 | local int i; |
1 | if( x < 5 ) |
1 | for( i = 0, x = 0; i < 15; i++ ) |
1 | while( myVar < 15 ) |
1 | switch( <variable> ) |
1 | type_name <variable_name> : number_of_bits; |
1 | // 打包alpha和beta为一个32比特的值中,但忽略中间的12bit |
1 | ushort a : 4; |
1 | // 第一个变量 |
1 | BitfieldDisablePadding(); |
1 | typedef struct |