理解音频:声音的概念及其应用

音频无处不在。虽然音频处理已存在数十年,但人工智能和大数据的兴起帮助我们发现了音频隐藏的秘密,并为企业和终端用户提供了新的见解。

在客户服务行业中,更好地理解音频能帮助企业最大限度地提高客户满意度。情绪分析算法可以识别客户在客户服务电话中的语气并对其进行详细分析,使企业能够灵活改变策略以更好地支持消费者。

再举个例子:NASA的SoundSee——是一个通过几个小机器人与麦克风来监控国际空间站宇宙飞船上的机器音频的倡议。作为防止系统故障的第一道防线,这些机器人在人工智能的辅助下识别异常情况,并通知各方解决问题。

在本文中,我们将探讨什么是声音、测量声音的方式以及如何通过人工智能来对其加以利用。

什么是声音?

简而言之,当振动的物体导致空气分子相互碰撞时,就会产生声音。这些振荡的空气分子在空气中产生微压差,从而有效地产生声波。这些波(又称为机械波),通过介质传播,将能量从一个位置传递到另一个位置。仔细想想,这正是太空中没有声音的原因,因为真空中根本没有可以传播声音的介质。

来源:https : //www.researchgate.net/figure/Pressure-propagation-of-a-sound-wave-through-air_fig2_334784649

在上图中,底部的粒子图表示由声音引起的空气中的低压和高压区域。压力低的区域具有较低的颗粒密度,而压力较高的区域具有较高的颗粒密度。基于这个压差,可以生成一条曲线,在高气压区域有峰,在低气压区域有谷。

这种声波的可视化称为波形,它提供了大量有关声音的细节,可以在尝试从音频中提取特征时加以利用。其中一些最基本的功能是:

频率

在一个波中,周期是完成一个周期所需的时间(参见下图)。频率是周期的倒数,以赫兹表示,即每秒周期数。从本质上讲,完成一个周期所需的时间越短,频率越高,反之亦然。从视觉上看,峰值彼此靠近的波将比峰值远的波具有更高的频率。

来源:https : //www.futurelearn.com/info/courses/representing-data-with-images-and-sound/0/steps/53151

但是我们如何感知频率呢?

我们对频率的感知通常由声音的音调来表示。虽然频率描述了波形循环重复率的数值度量,但音调更像是我们用来描述声音的主观术语。频率越高,声音的音调越高,而频率越低,声音的音调越低。

强度

就像频率一样,强度是理解声音成分的另一个关键维度。声音强度描述了声音在一个区域内位移的声功率,以瓦特/平方米为单位。声音的功率是声音在某个单位时间内传递能量的速率。简而言之,强度本质上是声音置换的能量。

现在,就像频率一样,我们感知强度的方式更加主观。通常情况下,强度越高的声音越大,而强度越低的声音越柔和。但是,这会随着听众的条件差异而变化,即听者的持续时间、频率和年龄等混杂因素会影响声音的响度。

音色

到目前为止,我们已经讨论了两个声音属性:频率和强度。与这些易于量化的属性不同,音色是声音的一种相当神秘的属性,它描述了赋予声音特征的多种属性。音乐家喜欢将音色描述为声音的颜色,这是一种有趣却有些含糊的描述。

为了探索什么是音色,让我们看一个简单的例子。想象一下小号以与小提琴相同的音高、持续时间和强度演奏一个音符。虽然这些声音具有大部分相同的特性,但对你我来说,这两种声音听起来却明显不同。将这两种声音分开的特征被称为声音的音色。

从物理世界到数字世界

现在我们对声音的物理原理及其属性有了基本的了解,那我们该如何利用这些属性并进行音频处理?首先,我们需要一些能将音频转换为一些数字信号(其中包含操作和处理音频所需的信息)。

麦克风的工作原理:模数转换 (ADC)

相应地,所有音频都被比作模拟信号。模拟信号是时间与声音幅度的连续曲线图,在每个极小的时间单位具有无限值。存储原始模拟信号几乎是不可能的,需要无限存储。相反,我们执行组合操作以固定间隔从模拟信号中提取值。这使我们能够将信号以数字格式存储在内存中,同时收集足够的数据来重现声音。这个过程称为模数转换 (ADC),它使用采样和量化来收集给定模拟信号的一组有限值。

采样:采样不是收集连续模拟信号中的每个值,而是以固定的等距时间间隔提取值的想法。音频最常见的采样率为 44.1 kHz,即每秒声音 44,100 个值。这种采样率最适合我们提取人类听力范围内存在的所有数据值。

量化:采样侧重于沿水平轴以固定时间间隔提取值,而量化则将波形垂直轴上的值划分为一系列固定的等距值。在给定时间间隔选择一个值时,量化会将给定时间的精确值四舍五入到最接近的量化值。量化值的数量,也称为分辨率,以比特为单位。普通 CD 的位深度或分辨率为 16 位,这意味着它有 65,500 个量化值。量化期间的位深度越高,将模拟信号转换为数字信号时的动态范围就越大。

当麦克风拾取音频时,麦克风内的振膜会发生振荡,形成一个模拟信号,该信号被发送到声卡。该声卡执行ADC并将新生成的数字信号发送到计算机进行操作或处理。

使用人工智能进行音频处理

我们已经了解什么是音频以及如何将其从物理格式转换为数字格式,但是我们实际上如何应用呢?虽然处理音频的方式多种多样,但我们将重点关注人工智能如何渗透到音频空间,帮助我们能够更好地理解、增强和再现音频。

虽然我们不会详述如何在音频处理中实现 AI 背后的具体细节,但我们将介绍 AI 应用于音频的各种方式。

从整体上讲,人工智能是指计算机能够完成比一系列逻辑过程更高级的任务。深度学习是人工智能的一个子集,其中以人脑为模型的复杂算法在本质上是从大量数据中学习的。

为了让深度学习算法真正为音频提供有价值的见解,我们需要访问大量音频数据。这些数据集不仅内容繁多,还需要整洁有序。大而干净的数据集与高效的 AI 算法的完美结合将为所有 AI 过程产生最佳结果。使用这些大型数据集,AI 模型将观察这些不同声音的属性模式,例如频率、持续时间、强度和音色。

语音识别

目前人工智能在音频领域最常见的用途之一是语音识别。Amazon Alexa、Google Home 和 Apple 的 Siri 等个人助理都利用 AI 将一个人的语音转换为文本,理解人们请求,并产生声音响应。

语音/音乐合成

语音识别只是人工智能给音频行业带来的一小部分机会。目前,研究人员正在实施能够完全从头开始创建声音的 AI 模型。这种能力对于任何使用语音合成音频的文本到语音程序都非常有用。深度学习模型会经过数百小时的演讲训练并产生副本。最终,他们会知道每个与上下文相关的单词和字符的发音,并在给定一段文本时产出语音。

同样,在给定一组参数的情况下,人工智能正应用于音乐行业来制作复杂的音乐作品。音乐合成的典型例子是谷歌最近的Blob Opera应用程序,无论用户如何组织 Blob,它都能生成优美的和声。

语音增强

对声音的利用不止于此。我们可以使用 AI 智能操纵数字音频,以改善现有音频以满足我们的需求。例如,AI 可从某些音频中去除任何背景噪音或不必要的伪影来创建更清晰的语音。音频超分辨率是音频增强的另一个方面,它使我们能够通过提高保真度来显着增强低质量音频。所有这些功能都可以改善通话过程中的音频质量,并提高录制不佳的音频的清晰度。

结论

今天,我们介绍了什么是声音以及它背后的原理。具体来说,我们研究了声音的频率、强度和音色。了解声音和波形的特性对于构建更好的 AI 声音处理算法至关重要。

这个行业的潜力是无限的,随着越来越多的研究人员和开发人员认识到这一前景,我们可以期待在每个行业中看到 AI 音频处理。

感谢你抽出时间来阅读。与往常一样,欢迎你的评论和反馈。

原文作者 Praneeth Guduguntla

原文链接 https://towardsdatascience.com/understanding-audio-what-sound-is-and-how-we-can-leverage-it-1e03d29cd7ce