视频编码新知
294
1
|
[1 楼] icpic
[禁言中]
5-24 07:57
※※站上的图片下载到本地后发现是AVIF格式,20多KB,到另一个网站转换成JPEG后300多KB,画质看上去一样。
AVIF 是利用 AV1 帧内编码(Intra-frame coding)技术封装成的图像文件格式。 在相同主观画质(即人眼看起来差不多)的情况下,AVIF 通常比 JPEG 能再节省 40%~60% 的码率。如果是色彩丰富、细节复杂的图片,优势甚至更大;只有在极简单的纯色图或噪点极大的图上,差距才会缩小。 JPEG 基于离散余弦变换(DCT),仅支持 8 位深度和 4:2:0/4:2:2 色度抽样,容易在渐变区域出现断层;AV1 支持 10 位/12 位深度、高级帧内预测和更强的熵编码,能用更少的比特完美保留渐变和纹理。 AV1 压缩效率更高且免版权费,但编码慢、旧设备支持弱;H.265 编码快、兼容性广,但需支付专利费且在浏览器支持上有短板。 同等主观画质下,AV1 比 H.265 节省约 20%~30% 的码率。 AV1 获得了所有主流浏览器的原生支持,但硬件解码主要依赖 2020 年后的设备。 H.265 的编码速度远快于 AV1(软件编码下 AV1 可能慢数倍到数十倍)。不过,随着 RTX 40 系、Intel Arc、AMD RX 7000 系等新一代硬件编码器的普及,AV1 的实时编码压力已大幅缓解。 H.266 目前是压缩率的“天花板”,同等画质下比 AV1 省约 30%~40% 的码率;AV2 的目标是追平或接近 H.266。 H.266 的编码复杂度极高(可达 H.264 的 10~30 倍),AV1 和 AV2 同样属于高复杂度梯队,非常依赖硬件编解码器来减负。 AV2 规范已于 2026年5月29日 正式发布。 AV1 和 AV2 均由 开放媒体联盟(Alliance for Open Media,简称 AOMedia) 主导开发与维护。AOMedia 是一个成立于 2015 年的非营利行业联盟。它目前汇集了近 50 家全球科技与流媒体巨头。 腾讯于2019 年加入,是董事会(Steering Committee)成员,也是迄今为止唯一进入董事会的中国企业,其多媒体实验室深度参与了 AV1/AV2 的标准研发。 Google、Meta 等国际成员公司内部有不少华裔工程师在为该组织工作。 吴枫(2025年当选为中国工程院院士)荣获IEEE电路与系统学会Mac Van Valkenburg奖【高含金量】 https://zgkdb.ustc.edu.cn/ndetail/6874 图像和视频领域“奖多”的原因可能是:领域横跨范围大,学会细分后多【如果无忌每个板块都有最佳帖子奖 】,各自都有终身成就奖、技术成就奖和最佳论文奖。MPEG-4 Part 10= H.264 (AVC),HEVC= H.265(同时它也是 MPEG-H Part 2)。 HEVC (H.265)和 H.264 一样,是由 ITU-T(国际电信联盟) 与 ISO/IEC MPEG(运动图像专家组) 联合制定的。 MPEG 是 ISO/IEC 下属的一个工作组(WG 11)。在 2020 年,上级委员会 SC 29 进行了重组,原来的 MPEG 大组被解散,其内部负责视频、音频、系统等的不同小组被拆分为多个独立的工作组。虽然官方架构变了,但人还是那些人,工作也还在继续(比如后续的 H.266/VVC 就是他们弄的),只是大家逐渐不再沿用旧的“MPEG 工作组”这个称呼了。 IEC(International Electrotechnical Commission)是国际电工委员会。 这些国际组织有非常严密的层级架构。ISO/IEC 最高层:由各成员国(如中国的 SAC、美国的 ANSI)的代表组成技术管理局(TMB),决定大的技术方向。 技术委员会(TC):如TC 276 对应生物技术,JTC 1(联合技术委员会 1)负责“信息技术”。 分技术委员会(SC):JTC 1 下面的 SC 29 负责“音频、图像、视频和多媒体信息的编码”。 工作组(WG):如SC 29 下面再分 WG 2(视频编码,如 H.264/H.265/H.266)、WG 3(图像编码,如 JPEG)等。日常的标准草案辩论、技术提案审定就在这里进行。 联想不是开放媒体联盟(AOMedia)的公开成员,也未处于 H.264/H.265 等标准核心提案的第一梯队。 联想曾自研过实时图像压缩技术(声称性能超标准算法)以及近年的轻量化光场多视点视频编解码(用于裸眼3D通信)等,但主要服务于自家产品,而非直接贡献给国际通用编码标准。 华为在 H.266/VVC 标准必要专利族数量上排名全球第一(占比约17.3%),提交了数百项技术提案,其中百余项被采纳(如仿射运动补偿、几何划分模式等核心工具)。 * 老标准里物体运动只有平移。但现实中物体常有旋转、缩放、形变。“仿射”是给一个图块加上更复杂的运动模型。 * 老标准一般只能用横平竖直的直线把图块切成矩形。但画面中运动的物体(比如倾斜的汽车、人的侧脸)边界往往是斜的。 字节跳动在 H.266/VVC 标准贡献者排行榜中位列全球前三,发起的100多项技术提案被采纳,并有多名成员出任标准文本主编、专家小组主席等职务。 Affine 来自拉丁语 affīnis ad- “朝向、附近”+ fīnis “边界、终点”。数学家借用这个词,是因为这类变换能保持点与点之间、线与线之间的某种“亲缘/连接”关系(如直线变换后还是直线,平行线变换后依然平行)。 “仿”有“相似、类似”之意(affinity和affine同一个词根)。意译说:“射”指“射影、映射(projection/mapping)”。音译说(最普遍):“射”是fine的音译。【真理往往掌握在少数人手中 】MPEG-7( Multimedia Content Description Interface)定义了一套描述符(如颜色、纹理、形状、运动、音频音调等)和描述定义语言(基于 XML),目的是为了让音视频、图像等内容像文本一样,能够被机器快速检索、过滤和管理【原来不包括编解码啊】。业界后来更倾向于直接用通用的 XML、JSON 或自定义的元数据方案,甚至后来的 RDF/OWL 语义网技术。 RDF (Resource Description Framework)使用用“主谓宾”,如:[《阿凡达》](@replace=10001)--类型--> 电影。【阿凡达 是 电影】 OWL (Web Ontology Language)建立在 RDF 之上,用来定义更严格的“词汇表”和“推理规则”。如定义“导演是人,人是生物,生物会死亡”,机器就能自动推理出“导演会死亡”。 ontology, from Greek ōn, ont- ‘being’ + ↑-logy, 1. a branch of philosophy that deals with the nature of existence 本体论 2. (computing) a list of concepts and categories in a subject area that shows the relationships between them MPEG-21是 MPEG 家族中野心最大的一套标准。其目标是构建一个端到端的开放大框架,把数字内容的创建、分发、消费、交易和版权管理全部整合在一起。 |
|
[2 楼] repairman
[老坛泡菜]
5-26 18:21
华为,怎么哪儿都有你?
|
】,各自都有终身成就奖、技术成就奖和最佳论文奖。