语音数据| HowStuffWorks

语音数据

要将语音转换为屏幕文本或计算机命令，计算机必须经过几个复杂的步骤。当你说话时，你在空气中制造震动。的模拟-数字转换器(ADC)把这种模拟波转换成计算机能够理解的数字数据。要做到这一点，它样品，或通过精确测量频率间隔的声波来将声音数字化。该系统对数字化的声音进行过滤以去除不需要的噪声，有时还将其分成不同的频带频率(频率是声波的波长，人类听到的是音调的差异)。它还可以使声音正常，或调整到一个恒定的音量水平。它可能还必须与时间保持一致。人们并不总是以相同的速度说话，所以声音必须进行调整，以匹配已经存储在系统内存中的模板声音样本的速度。

接下来，信号被分成小段，短至百分之几秒，甚至是千分之一秒破裂音辅音——因为阻碍声道气流而产生的辅音停顿——比如“p”或“t”。然后程序将这些片段与已知的片段进行匹配音素用适当的语言。音素是语言中最小的元素，是我们发出的声音的代表，并把它们放在一起形成有意义的表达。英语中大约有40个音素(不同的语言学家对具体的数字有不同的看法)，而其他语言的音素或多或少。