两种指标
弄清楚音视频实时通信的本质后,接下来的问题是我们如何才能达到面对面交流的效果。说到这里,就不得不提两个指标:一是实时通信中的延迟指标;二是音视频服务质量指标。
实时通信延迟指标
首先来看一下实时通信延迟指标,如表 3.1 所示。通过该表格中的数据,我们可以知道:如果端到端延迟在 200ms 以内,则双方通信的效果特别好,基本接近于面对面交流的效果;如果延迟在 300ms 以内,质量也很不错,一般人很难感觉到通信中的延迟;如果延迟达到 400ms,延迟效果就有些明显了,在测评中会有少部分人感受到通信中有迟滞现象,效果令他们不太满意;而当延迟超过 500ms 后,大部分人都可以明显地感觉出迟滞现象,影响互动的效果。当然在有些地区,由于网络质量特别差,用户心里会有一定预期。在这种情况下,达到 800ms 的延迟也能被人们接受,不过它已经是延迟的上限了。

在端到端之间,引起延迟的因素有很多,比如音视频采集时间、编解码时间、网络传输时间、音视频的渲染时间以及各种缓冲区所用的时间等。在众多延迟因素中,网络传输引起的延迟是动态的(时快时慢,飘忽不定),所以其最难以评估、难以控制且难以解决,而其他因素引起的延迟时间则基本是恒定不变的。
音视频服务质量指标
除了实时通信延迟指标外,音视频通信中还有业务服务质量指标,包括音频服务质量和视频服务质量。由于音频数据量比较小,对网络的影响不大,并且 3A
问题非常复杂,需要专门的一本书来讲解,所以这里就不介绍了。接下来重点介绍一下视频服务质量指标。
在讲解视频服务质量指标之前,我们先来了解几个视频的基本概念,即分辨率、帧率以及码率。这几个概念看似简单,但对于理解视频服务质量有着非常关键的作用。
-
分辨率,指图像占用屏幕上像素的多少。图像中的像素密度越高,图像的分辨率越高。对于实时通信而言,图像默认分辨率一般设置为 640×480 或 640×360,如果分辨率低于该值,则图像中包含的信息太少,基本只能看到一个头像,效果就会很差。另外,分辨率还指明了图像清晰度的最大上限。
-
帧率,指视频每秒播放帧(图像)的数量。播放的帧数越多,视频越流畅。一般动画片/电影的帧率在 24帧/秒以上,高清视频的帧率在 60帧/秒以上。对于实时通信的视频来说,15帧/秒是一个分水岭,当帧率小于 15帧/秒时,大部分人会觉得视频质量不佳,卡顿严重。
-
码率,指视频压缩后,每秒数据流的大小。原则上,分辨率越大,码率也越大。如果出现分辨率大而码率小的情况,说明在视频编码时丢弃了大量的图像信息,这将导致解码时无法将图像完整复原,从而造成失真。因此我们可以得到结论:在相同分辨率的情况下,码率越大还原度越好,图像越清晰。当然,这里的码率大小是有限制的,超过一定阈值(MOS=5)后,再大的码率也没有意义了。
除了上面这几个基本概念之外,还需要了解一下 MOS
值。MOS
值是用来评估业务服务质量好坏的,MOS
值越高,业务质量越好。它共分为 5 级,由高到低分别为:5——优秀;4——较好;3——还可以;2——差;1——很坏。
下面以 H264 编码为例,看看在不同 MOS
值下,码率与分辨率之间存在何种关系,如图 3.1 所示。从图中可以看到,如果视频的 MOS
值为 4,分辨率为 640×480 时,需要 1900kbps 的码率,分辨率为 1920×1080 时,需要 7Mbps 的码率;当 MOS
为 3 时,分辨率为 640×480 时,需要 500kbps 的码率,分辨率为 1920×1080 时,需要 2.5Mbps 的码率……由此可知,MOS
值越高,视频的质量越好,码率也就越大,需要的带宽也就越多。
了解了上述指标后,我们现在应该清楚,要想使在线实时通信可以逼近或达到面对面交流的效果,就必须尽可能地降低传输的延迟,同时增大音视频传输的码率。然而,降低延迟与增大码率是矛盾的,除非所有用户都有足够的带宽和足够好的网络质量,但这显然是不现实的。
