音频工程师的一期一会──杭州站小记

2022年3月6日,来自一线的华东地区资深音频技术工程师在杭州西湖某茶馆小聚,与会专家交流了音频领域的现状,并对音频技术未来的发展进行了探讨。主要相关话题如下:

  1. 元宇宙与音频技术
    从技术发展的角度来看,音频领域很长时间没有突破性的创新了。元宇宙这个风口也许会带来新的(技术落地)场景,例如沉浸式音频的体验会成为标配;但现有的软硬件环境距离实现元宇宙的设想还有一定的距离;细分到具体的技术点如空间音频,目前技术较为成熟、会很快落地。整个行业都很期待元宇宙能带来新的突破,对工程师而言一定多站在业务的角度进行技术的积累。

  2. 技术落地的代差问题
    回顾音频产业发展的历史,不难发现任何一项成熟技术的大规模应用(尤其是民用)都存在较长时间的代差。对于处在最前沿的音频工程师来说,如何克服技术自嗨和业务落地之间的 GAP 是一个较大的挑战。但大家容易忽视的地方在于,一个行业的技术变革并不是一蹴而就的,通常表现为持续量变的积累──正因为大家身在其(音频行业)中再加上技术落地的代差,造成的错觉和感知不会那么强烈才会“不识庐山真面目”。五年前谁会想到打电话的形式会是如今手机视频通话的样子?而新生代对沉浸式体验的需求正在一步步变成现实──这在如今的游戏行业已经初现端倪。

  3. 关于 AI Codec 的意义
    即便单纯从低码率这一个极端的方向看,把 Codec 做到极致依然会有意想不到的应用场景会找上门来,例如哪怕是如今的 5G 时代,弱网场景依然非常普遍。从人与人沟通体验的极致追求来看,当前业界的发展也只是解决了可懂度方面的问题,距离沉浸式的体验需求还有很长的路要走。另外,AI Codec 在通用场景(音乐与语音)的潜力尚有许多可以挖掘的潜力。

  4. 如何讲述音频的价值
    互联网音频技术经过最近一、二十年的发展,已经从“听个响”发展到了“听得爽”的阶段。在许多业务场景下的实现已经达到了90分以上的水平,但继续提高的难度开始陡增、因而继续投入的产出比(RoI)开始遭到质疑。而在音视频直播行业内卷的大前提下,工程师攀登技术高峰的诉求已然变得曲高和寡。在 To B 和 To C 的领域,如何将音频技术的价值充分地、清晰地表达出来变得尤为重要。这里既涉及到所谓的工匠精神缺失,也存在说服企业管理者的挑战。此外,关于音频质量的评价也缺乏统一的标准、企业发展过程中对短期目标的追求等等制约,都使得音频的价值很容易被忽略。

但整体而言,音频尤其是 WebRTC 仍有许多场景化的落地工作可以继续开拓,更多细分领域如音乐等还有许多问题有待解决。考虑到技术落地的代差问题,在工程化实现的环节必然存在诸多的挑战,这也正是可以展示工程师价值的地方。

最后,大家对“到底是技术推动应用落地还是应用推动技术的发展;元宇宙与沉浸式体验能给音频行业带来什么”这两个问题的讨论意犹未尽,相约下次聚会继续交流。