音频工程师的一期一会──北京站小记

image

继上海和杭州的活动之后,音频技术工程师的一期一会活动于2022年4月10日开启了北京站。受疫情影响本次活动通过线上进行,来自产业界和学术界的与会专家总结了近半年来音频领域的现状和重点事件,并对当下热点的音频技术问题进行了交流分享。

以下是本次活动的交流纪要:

1. 主动降噪怎么做

随着TWS蓝牙耳机市场的快速增长,主动降噪再次引起人们的关注。在深度学习的加持下,主动降噪(ANC)的应用范围从智能手机、蓝牙耳机等单点降噪向 PC、智能汽车、智能家居等市场扩展。但声源分离(声纹识别)与还原(声场重建)、多路音频的网络传输、算法的收敛等仍是一些值得关注的问题。

无论是智能车机或智能家具抑或元宇宙,随着应用场景的不断扩展,工程师对于主动降噪关注的技术方向应该侧重软件与硬件的结合。终端设备算力的不断提高和云服务的日益普及也必然会为主动降噪技术提供更大的可施展空间;在越来越多的场景中,多个端侧设备的协同调度(回声抑制)正在成为新的课题。

2. 空间音频在 RTC 领域的应用

自从苹果推出空间音频后迅速成行业关注的焦点,其实现也从耳机设备延伸到外放音响。与会的工程师留意到Facebook、微软最近都在空间音频方面有所研究,公开的 Demo 显示主要应用在会议场景。由于会议场景太过复杂,在做空间音频时到底要先做分离还是先做声道的问题,目前业界尚没有统一的实现方案;在人&声分离方面,到底选择哪一路音频(向用户播放给出来)主要取决于上层应用。据了解苹果在空间音频实现方面采用的是杜比的方案。但考虑到更多的应用场景,工程师须知,空间音频要解决的问题既包括现实场景的模拟与对抗、也包括虚拟场景的模拟与对抗。

目前空间音频的应用还面临一个更为现实的问题是,并没有足够多的音源素材可应用,市场上占有率更多的设备和业务场景并不具备相应的条件,尤其是海量的中低端设备和短视频应用。另外,空间音频在模拟现实的过程中还有一些信息丢失,对于空间音频的质量评价也缺乏统一的标准,目前空间音频的体验(空间感)或者说音质并不理想。由于空间音频的场景较多,业内公司提出了一些不同的方案,这可能会影响它的进一步应用。

3. 音频技术的下一个市场

从智能音响到蓝牙耳机,市场的变化十分迅速,下一个音频技术的机会是哪个领域?

抛开商业行为,“下一个热点”的问题对于工程师而言意义不大,多数组织架构的利益分配机制对工程师往往不利。从技术角度看,VR 和 AI 等也已经火过不止一次,有些热点技术存在一定的周期性值得长期关注。例如,AI 在语音方面还有很大的发展空间,目前高校的学生受大厂影响也比较愿意学,但传统 DSP 方向就鲜有人问津。再比如,蓝牙耳机在助听和辅听市场的发展已初现端倪,但海内外市场因文化和政策等因素又存在较大的差异。

其他方面,当前大火的元宇宙对视频的关注明显多于音频,这显然不符合“两条腿”走路的常识。在更多细分领域,把声音的(语音识别、场景识别、音源识别)前端感知能力当作传感器,结合后端逻辑实现物联网、工农业生产、医疗等场景下的定位、识别、检测等自动化管理,都有很广泛的应用前景。

4. 关于元宇宙

对于一些元宇宙市场的现象,的确存在割韭菜的行为,但不可否认硬件设备的升级也带来了新的场景和机会。以沉浸式音频为例,企业混和办公场景下,目前商用的方案造价不菲且对布署环境(例如会议室的规格和声学设计)有一定的要求,可落地的形态和方案仍需继续寻找突破点。目前看,元宇宙实现的侧重点是虚拟的音频沉浸体验,元宇宙/空间音频如果只是为了娱乐,是不是应该在内容制作方面多发力?