第7步:Delta能量和Delta频谱
语音信号和帧会发生变化,如共振峰在转换处的斜率。因此,需要添加与cepstral特征随时间变化相关的特征。添加了13个delta或速度特征(12个cepstral特征加上能量),以及39个双倍delta或加速度特征。对于信号x在从时间采样t1到时间采样t2的窗口中的一个帧内的能量,其方程式如下所示:
每个13个delta特征表示相应cepstral或能量特征之间的帧间变化,而每个39个双倍delta特征表示相应delta特征之间的帧间变化。
2.3 特征匹配(DTW)
DTW算法基于动态规划技术,如[11]所述。该算法用于衡量两个时间序列之间的相似性,这些序列可能随时间或速度变化。如果一个时间序列可以沿其时间轴拉伸或收缩,则可以使用此技术来找到两个时间序列之间的最优对齐。然后可以使用这两个时间序列之间的扭曲来查找两个时间序列之间的相应区域或确定两个时间序列之间的相似性。图4显示了如何将一个时间序列“扭曲”成另一个时间序列的示例[12]。
在图4中,每个垂直线将一个时间序列中的一个点连接到另一个时间序列中相应的相似点。这些线在y轴上具有类似的值,但已经分开,以便更容易查看它们之间的垂直线。如果图4中的两个时间序列完全相同,则所有的线都是直线,因为不需要扭曲来“对齐”这两个时间序列。扭曲路径距离是将两个时间序列扭曲在一起后它们之间的差异的度量,其通过在图4中由垂直线连接的每对点之间的距离之和来测量。因此,除了局部拉伸时间轴的时间序列相同的情况下,DTW距离为零。DTW的原则是比较两个动态模式,并通过计算它们之间的最小距离来测量它们的相似性。经典的DTW如下所示[13]:
假设我们有两个长度分别为n和m的时间序列Q和C,其中: