视频编码新知

294 1

[1 楼] icpic [禁言中] 5-24 07:57 ※※站上的图片下载到本地后发现是AVIF格式，20多KB，到另一个网站转换成JPEG后300多KB，画质看上去一样。 AVIF 是利用 AV1 帧内编码（Intra-frame coding）技术封装成的图像文件格式。在相同主观画质（即人眼看起来差不多）的情况下，AVIF 通常比 JPEG 能再节省 40%~60% 的码率。如果是色彩丰富、细节复杂的图片，优势甚至更大；只有在极简单的纯色图或噪点极大的图上，差距才会缩小。 JPEG 基于离散余弦变换（DCT），仅支持 8 位深度和 4:2:0/4:2:2 色度抽样，容易在渐变区域出现断层；AV1 支持 10 位/12 位深度、高级帧内预测和更强的熵编码，能用更少的比特完美保留渐变和纹理。 AV1 压缩效率更高且免版权费，但编码慢、旧设备支持弱；H.265 编码快、兼容性广，但需支付专利费且在浏览器支持上有短板。同等主观画质下，AV1 比 H.265 节省约 20%~30% 的码率。 AV1 获得了所有主流浏览器的原生支持，但硬件解码主要依赖 2020 年后的设备。 H.265 的编码速度远快于 AV1（软件编码下 AV1 可能慢数倍到数十倍）。不过，随着 RTX 40 系、Intel Arc、AMD RX 7000 系等新一代硬件编码器的普及，AV1 的实时编码压力已大幅缓解。 H.266 目前是压缩率的“天花板”，同等画质下比 AV1 省约 30%~40% 的码率；AV2 的目标是追平或接近 H.266。 H.266 的编码复杂度极高（可达 H.264 的 10~30 倍），AV1 和 AV2 同样属于高复杂度梯队，非常依赖硬件编解码器来减负。 AV2 规范已于 2026年5月29日正式发布。 AV1 和 AV2 均由开放媒体联盟（Alliance for Open Media，简称 AOMedia）主导开发与维护。AOMedia 是一个成立于 2015 年的非营利行业联盟。它目前汇集了近 50 家全球科技与流媒体巨头。腾讯于2019 年加入，是董事会（Steering Committee）成员，也是迄今为止唯一进入董事会的中国企业，其多媒体实验室深度参与了 AV1/AV2 的标准研发。 Google、Meta 等国际成员公司内部有不少华裔工程师在为该组织工作。吴枫（2025年当选为中国工程院院士）荣获IEEE电路与系统学会Mac Van Valkenburg奖【高含金量】 https://zgkdb.ustc.edu.cn/ndetail/6874 图像和视频领域“奖多”的原因可能是：领域横跨范围大，学会细分后多【如果无忌每个板块都有最佳帖子奖】，各自都有终身成就奖、技术成就奖和最佳论文奖。 MPEG-4 Part 10= H.264 (AVC)，HEVC= H.265（同时它也是 MPEG-H Part 2）。 HEVC (H.265)和 H.264 一样，是由 ITU-T（国际电信联盟）与 ISO/IEC MPEG（运动图像专家组）联合制定的。 MPEG 是 ISO/IEC 下属的一个工作组（WG 11）。在 2020 年，上级委员会 SC 29 进行了重组，原来的 MPEG 大组被解散，其内部负责视频、音频、系统等的不同小组被拆分为多个独立的工作组。虽然官方架构变了，但人还是那些人，工作也还在继续（比如后续的 H.266/VVC 就是他们弄的），只是大家逐渐不再沿用旧的“MPEG 工作组”这个称呼了。 IEC（International Electrotechnical Commission）是国际电工委员会。这些国际组织有非常严密的层级架构。ISO/IEC 最高层：由各成员国（如中国的 SAC、美国的 ANSI）的代表组成技术管理局（TMB），决定大的技术方向。技术委员会（TC）：如TC 276 对应生物技术，JTC 1（联合技术委员会 1）负责“信息技术”。分技术委员会（SC）：JTC 1 下面的 SC 29 负责“音频、图像、视频和多媒体信息的编码”。工作组（WG）：如SC 29 下面再分 WG 2（视频编码，如 H.264/H.265/H.266）、WG 3（图像编码，如 JPEG）等。日常的标准草案辩论、技术提案审定就在这里进行。联想不是开放媒体联盟（AOMedia）的公开成员，也未处于 H.264/H.265 等标准核心提案的第一梯队。联想曾自研过实时图像压缩技术（声称性能超标准算法）以及近年的轻量化光场多视点视频编解码（用于裸眼3D通信）等，但主要服务于自家产品，而非直接贡献给国际通用编码标准。华为在 H.266/VVC 标准必要专利族数量上排名全球第一（占比约17.3%），提交了数百项技术提案，其中百余项被采纳（如仿射运动补偿、几何划分模式等核心工具）。 * 老标准里物体运动只有平移。但现实中物体常有旋转、缩放、形变。“仿射”是给一个图块加上更复杂的运动模型。 * 老标准一般只能用横平竖直的直线把图块切成矩形。但画面中运动的物体（比如倾斜的汽车、人的侧脸）边界往往是斜的。字节跳动在 H.266/VVC 标准贡献者排行榜中位列全球前三，发起的100多项技术提案被采纳，并有多名成员出任标准文本主编、专家小组主席等职务。 Affine 来自拉丁语 affīnis ad- “朝向、附近”+ fīnis “边界、终点”。数学家借用这个词，是因为这类变换能保持点与点之间、线与线之间的某种“亲缘/连接”关系（如直线变换后还是直线，平行线变换后依然平行）。 “仿”有“相似、类似”之意（affinity和affine同一个词根）。意译说：“射”指“射影、映射（projection/mapping）”。音译说（最普遍）：“射”是fine的音译。【真理往往掌握在少数人手中】 MPEG-7（ Multimedia Content Description Interface）定义了一套描述符（如颜色、纹理、形状、运动、音频音调等）和描述定义语言（基于 XML），目的是为了让音视频、图像等内容像文本一样，能够被机器快速检索、过滤和管理【原来不包括编解码啊】。业界后来更倾向于直接用通用的 XML、JSON 或自定义的元数据方案，甚至后来的 RDF/OWL 语义网技术。 RDF (Resource Description Framework)使用用“主谓宾”，如：[《阿凡达》](@replace=10001)--类型--> 电影。【阿凡达是电影】 OWL (Web Ontology Language)建立在 RDF 之上，用来定义更严格的“词汇表”和“推理规则”。如定义“导演是人，人是生物，生物会死亡”，机器就能自动推理出“导演会死亡”。 ontology, from Greek ōn, ont- ‘being’ + ↑-logy, 1. a branch of philosophy that deals with the nature of existence 本体论 2. (computing) a list of concepts and categories in a subject area that shows the relationships between them MPEG-21是 MPEG 家族中野心最大的一套标准。其目标是构建一个端到端的开放大框架，把数字内容的创建、分发、消费、交易和版权管理全部整合在一起。
[2 楼] repairman [老坛泡菜] 5-26 18:21 华为，怎么哪儿都有你？