上一页 下一个

语音识别的工作原理

由:Ed Grabianowski

语音数据

ADC通过对声音进行采样,将声音的模拟波转换为数字数据。采样率和精密度越高,质量越高。"width=
ADC通过对声音进行采样,将声音的模拟波转换为数字数据。采样率和精密度越高,质量越高。

要将语音转换为屏幕文本或计算机命令,计算机必须经过几个复杂的步骤。当你说话时,你在空气中制造震动。的模拟-数字转换器(ADC)把这种模拟波转换成计算机能够理解的数字数据。要做到这一点,它样品,或通过精确测量频率间隔的声波来将声音数字化。该系统对数字化的声音进行过滤以去除不需要的噪声,有时还将其分成不同的频带频率(频率是声波的波长,人类听到的是音调的差异)。它还可以使声音正常,或调整到一个恒定的音量水平。它可能还必须与时间保持一致。人们并不总是以相同的速度说话,所以声音必须进行调整,以匹配已经存储在系统内存中的模板声音样本的速度。

接下来,信号被分成小段,短至百分之几秒,甚至是千分之一秒破裂音辅音——因为阻碍声道气流而产生的辅音停顿——比如“p”或“t”。然后程序将这些片段与已知的片段进行匹配音素用适当的语言。音素是语言中最小的元素,是我们发出的声音的代表,并把它们放在一起形成有意义的表达。英语中大约有40个音素(不同的语言学家对具体的数字有不同的看法),而其他语言的音素或多或少。

广告

下一步似乎很简单,但它实际上是最难完成的,是大多数语音识别研究的重点。该程序在音素周围的其他音素的上下文中检查音素。它通过一个复杂的统计模型运行上下文音素图,并将它们与一个大型的已知单词、短语和句子库进行比较。然后,该程序确定用户可能在说什么,然后将其输出为文本或发出计算机命令。

接下来我们将仔细研究它是如何做到这一点的。

游戏