腾讯音视频实验室刘杉：编解码标准制定没有终点编解做过264的码标同学都知道-无码科技

后处理和一些比较宽泛的腾讯多媒体相关项目。

刘杉个人简介：

刘杉本科毕业于清华大学电子工程系，音视验室有终

下面我们一起对这些基本技术做一个快速简单回顾。频实无码科技

腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。刘杉暂时称“266“)的编解预研大概在2013年、虽然参加艾美奖活动的码标人只有十几个，腾讯手机管家，准制清华、定没点150余位来自麻省理工、腾讯中科院计算机所、音视验室有终科研人员又会带着他们的频实解决方案来一起讨论，quantization、刘杉如果单单把HD 测试序列拿出来看，编解做过264的码标同学都知道，所以为了让世界上任何以某个厂家、准制同样，是一种无损压缩方式，成立了JVET。60帧每秒, 2小时就是120分钟，每秒60帧，变声、降噪、比如说预测单元的划分，H.264里面用的是 macroblock的单元结构。我们就要去做。我们仍然要问Why? 为什么要做这件事。因为视频的数据量是非常非常大的，还有一个标准组织，HEVC在2007年左右开始预研，刘杉加入腾讯之前，把编解码复杂度降低，这里有一个简单的例子。那如果我们说价格低要求用SD 格式, 30fps,如果不压缩也需要大约224GB。以达到decorrelation, energy compaction的目的。在主流的视频编解码解决方案或标准里面我们还是用块状的方式，这个已经是无码科技被大家广泛使用的;1993年ISO/IEC推出了MPEG-1 Part2，

言归正传，HD 格式，

我不知道在座多少同学用过DVD?DVD这个格式我们小时候用了很久，视频是一组图片，数字电视广播在很长时间里也是用的MPEG-2 Part2，视频压缩技术可以大体分为两类：一类是针对图片压缩的，欢迎大家找我分享。也做过产品。我们已经有35%的 coding gain。由于今天时间有限不太会讲的很具体，那就是说你花大概一百美金买一个移动硬盘可以装这样一部HD电影。Apple压缩的视频内容就没有办法被Orange解压缩。视频压缩标准。加入3D。之所以要做视频压缩这件事，但是这套标准的制定积累了上千个工程师和科学家、等等。HD 60fps的视频内容如果不压缩需要大约3Gbps的带宽传输。带给大家更好的体验。颜色有改变，为了更有效的压缩，包括 main、除了变换模块可以更大，

制定标准是一个蛮艰苦的过程，流控，因为比较早，近几年我们聚焦在视频编解码的标准制定， transform、DL辅助视频编解码等等。比如chroma sub-sampling、

我花了一分钟的时间来做这个数学，我们引入运动补偿。我们看到对于4K和2K的情况，我们也做了不少新技术，

比如降噪，我们的TPG组件提供了一套完整的图像压缩解决方案，

那我们一起来看一下HEVC是怎么在前一代标准的基础上做到加倍压缩的。现任音视频实验室杰出科学家。我们可以看到它们之间有很明显的相关性。为了更好的利用图片之间的时域相关性，我们做视频就要抓住两个点：运动关系和图片。腾讯新闻，天天快报等多款公司产品。1980×1080像素每帧，比如说这个任意目标跟踪组件，也是今天我要跟大家分享的一个内容。H.265在此基础上对每个模块都做了很多改进，并且是根据预测模式进行切换。”)

我们大家一起来做一个快速算术，数据是一回事，但是它不是一组随机的图片，还要美化声音，不是一个终点，研发人员的努力。斯坦福、我们会进一步把coding gain的数值增大，ISO/IEC、我们真正在标准制定的时候，

首先关于编码和预测单元的划分。比如低照度处理，组建联发科美国多媒体标准团队并帮助公司实现了在视频编解码和系统等标准领域从零到一的突破。两个人都说了算的东西，不像很多领域那样做的会去做object detection、怎么在前一代标准的基础上做到加倍压缩?

下面花一点时间讲一下HEVC。我们可以看到在所有的测试序列和测试条件下，有更多模块，早在1984年ITU已经制定了第一个标准H.120，也包括前处理，需要指出的是，争取在2020年底完成下一代标准的制定。我是来自工业界的博士，我今天分享的主题是“视频编解码和标准化”。2014年很多公司就开始了，发表了超过 30 篇专业期刊和会议论文，从YUV444 到 YUV420. 这件事对博士来说完全没有什么技术含量，我们首先要了解什么是视频。

以下是刘杉演讲全文。视频压缩这件事情不是重要的，看到调整后的数据我们会更加高兴了，很多新的电视节目也都是开使用H.264，有兴趣的同学欢迎线下找我讨论技术细节。

另外我们实验室在语音方面也有很强的技术积累，视频时域压缩技术就是要找到相邻或相近图片的相关性从而去除时域上的冗余度。是transform。熵编码等;另外一类是针对运动关系的，

以上是今天一个简单的分享，

这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。我们就需要全世界人民都接受的标准。我觉得也是非常重要的：AVS，现在video codec已经变得复杂了很多，现场有没有视频编解码背景的同学可以告诉大家，关于运动补偿的这一大块，有一部两个小时的电影，对于 SD 测试序列265比264 仍然可以提升49%。3D音效等等，比如运动估计、它需要有标准组织根据严格的流程来制定。压缩过的视频是不可读的binarized bitstream, 从某种角度讲，主观感受也是非常重要的。segmentation等等，运动补偿和一些相关技术。近些年AVS做得越来越好、2015年出版了Version，待会儿我会再详细讲这个标准。这里是一个H.264的 Block Diagram，道理也很简单，

有了这些主要的图片压缩和处理运动关系的技术模块，腾讯体育，为用户带来更好的体验。包括更多形状和大小的预测单元、我们做视频、简单讲，

刚才快速分享了几种针对图像压缩的技术。不过努力的工作一般来说回报都是不错的，如果没有一个大家都公认的协议或者密码本这样的东西，之前在一些公司工作过，最后我想花一点时间介绍一下音视频实验室现有的一些研究成果和场景。下一步是Entropy Coding，跟刚才两位嘉宾的背景稍稍不一样，这些数据都显示265对比264达到了一个压缩翻倍的目标。因为每一个技术又是一个新的讲座。Merge mode、在265里面我们用了更大、学校、AI语音降噪和分离，在未来两三年里面，产品或App压缩的视频内容可以被任何其他人解压缩和播放，

刚才讲我们对”H.266”已经做了很多预言，这张图展示的是现在已经公开的一些编解码工具，在今年十月标准组织发了正式的CfP，她分享了视频编解码领域的核心技术和编解码标准的变迁。最近的标准里面也开始引入了DST。我们会持续进行技术研究和标准布局，尤其是国际标准，SD 30fps的视频内容也需要大约250Mbps的带宽。今天分享的主题主要包括两个部分，视频就是运动关系和图片。就不是一个人、这是近期HEVC/H.265的Video Encoder，在2013年出台了Version1，经过这二三十年的演变和进化，

在分享之前，致力于制定不收费的视频编解码标准。

我们来梳理一下时间线。所以对于运动补偿方面有很多相关技术，所以我们的算法实质性要求很高。变换模式也在 DCT之上引入DST，今天因为时间关系只能浮光掠影地讲一下。因为有更多连续的0，像Blu-ray、在它下面有一个工作组是VCEG，也是HEVC的最后一个版本，是我们国内的标准组织。是ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主编之一。硕士和博士毕业于美国南加州大学电机工程系，2016年出了Version4，并多次在国际顶级学术会议担任领域主席、

花了几分钟时间，在Inter Prediction 方面，等等。

我认为知道为什么要做一件事对任何一个项目来说都是至关重要的。

下面这个有一点技术含量了，而我们真正在做视频编解码的时候，更多种、在座各位已经是视频编解码的专家了，第一个是chroma sub-sampling。

大约两年前一些公司联合发起了一个新的标准组织AOM，main10、包括AI的语音美化。她曾多次担任标准组织技术分组与专家小组的主席和联席主席，还有很多技术，main still picture profiles。Transform是把信息从空域转移到频域，并且它是递归的。我们就可以得到一个简单的视频编码器示意图和一个简单的视频解码器的示意图。QQ浏览器，这个电影如果不压缩文件会是多大?

(某位现场嘉宾：“50G。索尼资深算法工程师等职。IBM客座研究员、在视频编解码方面，

又经过了两年时间的共同研究，另外一部分是其标准化。大概是MPEG-2之前的编解码器状态。被用于QQ空间，我们在视频编解码里面最常用的是DCT，

在联发科任职期间，运动矢量本身的预测和编解码等等。而是必要的。也让大家感受一下我们实验室除了做充满数据的编解码之外还有一些可能更有趣的工作。这是为下一步做准备。她说目前我们所处的阶段应该视为下一代视频编解码标准制定的一个起点，35个预测模式的压缩方法也比264做了更新。垂直扫描, 并根据预测模式进行切换。

视频压缩标准

在讨论视频压缩标准的一开始，当物体旋转、更灵活的单元划分方式，还有AI辅助的音视频的质量评估，一个部分是视频编解码，如果不压缩，我们通常认为的每两代重要标准都做到了压缩率翻倍。如果在座有同学想了解博士在工业界的心路历程，图片方面我们已经讲了，大学、在会上，2014年出版了Version2, 包括RExt, SHVC, Multiview。265比264的压缩效率提升可以到40-45%。做过研究、我们可以进入下一个内容，这给了我们一定的信心可以努力去做出下一个压缩翻倍的标准。如果不压缩是大约2.7TB。负责是在ISO/IEC下面研发视频编解码的技术和制定相关标准。是要说明，

我们来做一个265和264 压缩效率的比较。同时扫描方式也更灵活, 引入水平扫描、我们也请了专门的人做主观测试，(PPT)右上角是一个举例的quantization matrix，比如视频超分，对比264里面9个luma intra modes, 4个chroma intra modes, 265用了35个预测模式对luma, 其中包含33个方向性预测模式和 DC mode、我也非常荣幸受邀参加了这个盛会。其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中。因为我们要落地产品， VCD用的就是这个格式;1995年出了H.262/MPEG-2 Part 2，AMVP, 新的DCT based 插值滤波器，由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行，一件事情如果是必要的，

这些年工作的内容主要在视频编解码和传输，你的手提电脑大概可以装两部这样不压缩的电影。

基于这两个基本点，我们用coefficients 除以 quantization系数就得到右下角这个 quantized coefficient matrix。ITU这两个相爱相杀这么多年的组织决定一起来做下一代标准，我是刚刚加入腾讯的音视频实验室。我们推出了H.265/HEVC标准。又过了大概十来年，

HEVC，

做标准的人是永远不会停下来的，

什么是视频?

为了做视频压缩，因为我们看到很多很多的0，平均来说265比264的压缩效率提升了35-40%, BD-rate。DVD这个格式就是用了MPEG-2，这个标准是ISO/IEC和ITU两个组织共同制定的。我们把图片从RGB转换到 YUV然后对色度做一个sub-sampling，于2013年荣获联发科最高荣誉研发金奖以表彰在标准领域对公司的贡献。有两个历史比较悠久的国际标准组织，

刚才给大家看的是最简单的video codec block diagram，但是我们立刻可以节省一半的数据带宽。

非常高兴也非常荣幸来到这里跟大家做一个分享。除了对deblocking filter进行改进还引入了一个新的环路滤波器SAO。HEVC今年获得了第69届的艾美工程奖，论文评审委员或做邀请报告。这是全方位的美化。而非终点。也有更多技术细节。可以把文件压缩的更小。负责研究视频编解码的技术和制定标准;第二个标准组织是ISO/IEC JTC 1, 在他下面有一个工作组是MPEG，

Transform 之后是quantization。

腾讯音视频实验室现有成果和场景

下面我用简单一两分钟时间介绍一下我们音视频实验室的一些其他成果和场景，

2017年12月28日，压缩如同加密，我简单介绍一下我自己。到2003年有了H.264/AVC，在环路滤波器方面，大到什么程度呢?举个简单的例子，其中第一个是ITU，作为主要发明人和联合发明人的50余篇技术提案被ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等国际标准采纳。把这些工具放在一起，这是一个视频里面的三帧，在帧内预测方面，引入了新的技术甚至是新的模块。对于下一代标准(还没有正式名字，这是一个起点，非常感谢大家。卡耐基梅隆、标准这个事情是一代一代可以一直做下去的。下面我们要看一下运动关系这部分。或者是被部分遮挡住的时候也不会丢失。必须指出的是，

标准，还有OTT。研究机构一起努力，左下角是一个举例的 coefficient matrix，越来越强大，在未来两三年时间里面我们又会很努力的工作，研究所的学者和研究员受邀出席。欢迎同学们下午到我们音视频实验室分论坛进行深度技术交流和体验 demo.

我们也在探索跟AI相关的课题，到2010年初CfP, 之后经历了两三年全世界的公司、

在此之前还曾担任MERL主任研究员、在iPhone 7+ 上测试是每秒一百帧的速度。我们做压缩的看到这个会很兴奋，HD-DVD这些格式都是用这个标准，还有其他的一些还在探讨之中。现在是完全不可忽视的一个力量。然后我们会用一个遍历，在transform 方面，2015年10月的时候，可能现在周围熟悉它的人不多;到1990年推出了H.261，视觉或者图像的同学都知道，微软研究院等海内外知名高校、包括之前的所有内容并加入Screen Content Coding。

我们再回到刚才讲的什么是视频，

无论是从MPGE-2到H.264还是从H.264到H.265，比如 zig-zag, 来调整这些数字的顺序。是超过 200 个美国和全球专利申请的发明人， Planar mode。直到今天很多数字电视广播还在用MPEG-2。它可以跟踪一个移动很快的物体，而是有运动关系的图片，我们不仅只美化样子，通常都是划分成很多个技术分组来具体讨论它相关的各个技术子级和细节。我们需要传输的带宽是很大的，明年初全球的公司、结果是对于HD 测试序列265比264可以提升67%，曾任华为美国多媒体实验室主任兼视频标准首席科学家和全球项目负责人;在此之前担任联发科美国视频和视觉技术开发部主任。一些成果比如语回声抵消、

无码科技

2017年12月28日，由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行，150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知

2025-11-29 16:07:41