音频工程师的一期一会──华南站小记

image

音频技术工程师华南站的一期一会活动于2022年5月初在线上举行。本次活动汇聚了来自产业界和学术界的专家,大家根据自己的经历分别总结了近半年来音频领域的现状和热点事件,并对音频领域未来的发展问题进行了展望和交流。以下是本次活动的交流纪要:

1. 音频技术发展进入平台期

音频技术发展已经到了一个平台期阶段。神经网络的热潮开始消退,在音频降噪、回声消除、丢包补偿等方面的应用都有所突破,通道技术的改进都接近瓶颈,编解码和麦克风阵列的应用处于尝试阶段。

长远来看,业务需求的积累和音频技术的迭代一直都在驱动着领域的发展,现在面临的问题是技术层面需要有新的突破。在具体的场景下,例如虚拟会议、空间音频、降噪、车载等等场景对沉浸式体验的追求越来越明显,这都需要工匠精神去打磨。

2. AI 和传统算法必然会结合

AI 在音频前处理算法的热潮持续到2018年前后时,发现音频信号处理的方法在服务具体行业时遭遇了瓶颈(各类播放端的算力和能耗问题),因此更多细分行业的解决方案开始返回到之前传统的音频信号处理技术。在音频领域,AI 解决普遍问题,算法解决个例问题,因此 AI 和传统算法的结合是必然的。

3. 阵列技术的应用前景广阔

智能设备的发展造成未来很多单声道的场景都会被多声道取代,因此阵列技术的应用场景会变得越来越多。但如何选取传声器或扬声器的音频信号、怎么评估阵列的效果以及声场重建等方面仍面临着挑战(如多区域、指向性、时域滤波等)。除了实验室环境,国内外的研究机构已经在户外音乐会、音乐广场等领域的应用取得进展。

4. 软硬结合将来会更占优势

3A 在传统场景的应用非常成熟,在细分场景下还有许多要提高的地方。以会议场景为例,目前可改进的地方非常多(例如 AEC 的收敛问题、全双工的体验问题等),怎么在细节上提升用户体验才是重点。多人会议时,多设备、多麦克风阵列的问题不能单纯靠软件和算法去改进,硬件设备本身从底层提供支持可以补充软件能力的不足,从而达到事半功倍的效果,未来软硬结合的解决思路将占具优势。

5. VoIP 的发展取决于市场需求

未来 VoIP 会发展到什么程度?移动通信已经从 2G 发展到 5G 时代,VoIP 也从最初的 8k 提升到 44k 的高清通话水平。高音质也带来了新挑战,通话的稳定性是第一位的,网络的切换和抖动对 VoIP 的影响也很大;在 1v1 和 N v N 的通话场景中要解决的问题也不尽相同。尽管降噪、去回声这2大应用课题在学界有了一些进展,但硬件的复杂性也增大在工业界实际应用的难度。

VoIP 已经变得更场景化、多设备化,并且场景与设备的融合度更高,追求沉浸式体验。因此在前端处理(算力)、网络、设备的多样性和复杂性方面存在诸多制约因素。产业界考虑的是稳定性。从技术角度看,VoIP 有很多事可以做,但从应用场景来看,市场需求才是决定性因素。

此外,与会者还讨论了在大环境比较低迷的当下,根据现在音频技术的利用程度对热点趋势发表了不同看法,并认为随着时间的变化,音频工程师应该持续投入自己喜欢的、有创新性和可落地性的技术研究。