ASR之Sequence to Sequence

什么是Sequence to Sequence

Sequence to Sequence可以使用下面的图表示，就是输入一个序列，经过Encoder，Decoder之后输出一个序列，

因此很多人也会直接把Sequence to Sequence模型叫做Encoder Decoder模型。

Sequence to Sequence在ASR

Sequence to Sequence用在AS… 更多... “ASR之Sequence to Sequence”

2022年7月22日2022年7月22日

ASR之RNN-T

本篇是RNN-T的学习笔记，图片来源于

RNA

介绍RNN-T之前介绍一下RNA，因为它是介于上一篇介绍CTC和本篇要介绍的RNN-T之间的一个东西。RNA时候Recurrent Neural Aligner的缩写，

CTC每一个token输出的时候，是相互独立的，RNA就会让当前输出token的时候参看上一个输出的token，并且把linear的classifier改成RNN。

RNN-T

… 更多...

2022年7月22日2022年7月22日

ASR之CTC

本片文章的图片来源于

CTC的简单描述

输入N个feature，输出N个token
当不知道该输出什么的时候，就输出∅
合并∅ 之间相同的token，然后去掉∅

例如
∅ccc∅aa∅∅
合并之后就是输出 cat

CTC解码

下面是CTC解码的过程

上面的classifier是linear classifier，token distribution表示输出哪个token的几率最大。

CTC training的问题

上… 更多... “ASR之CTC”

2022年7月22日2022年7月29日

ASR中数据增广

在ASR中，真实的使用场景中可能语音和训练的数据有差异，导致准确率很低，包括语速，音调，噪音，混响，因此我们在训练的数据加入对这些因素的考量，这个叫做数据增广（Data Augmentation）。

使用sox这个免费工具我们可以改变语速和语调

除了sox，也可以使用ffmpeg。

加噪音和混响可以使用ffmpeg或者Kaldi。

加混响的效果可以参看A study on data augmenta… 更多... “ASR中数据增广”

2022年7月22日2022年7月26日

ASR之Listen Attention Spell

本篇是关于学习LAS的笔记，图片来自这个视频，

和论文 Attention is All You Need。

Listen

黄色的三角形代表的是filter，每次filter吃3个feature（一次吃几个feature，可以自定义），然后产生一个数字，三角形向右移动一个feature，然后再拿3个feature，做同样的事情。有很多个这这样的filter，这样就会… 更多... “ASR之Listen Attention Spell”

2022年7月20日2022年7月20日

Kaldi的Phones文件夹下面的文件介绍

里面共有三种格式 csl， int， txt ，其实内容都是一样的，

align_lexicon
表示对齐文件，是由lexiconp.txt的第一列第三列提取出来生成

context_indep
非正常音素集合，包含（静音（SIL），口语噪声（SPN），非口语噪声（NSN）和笑声（LAU）

silence
静音音素

nonsilence
正常音素可以认为和上面的silence是… 更多... “Kaldi的Phones文件夹下面的文件介绍”

2022年7月20日2022年7月20日

Kaldi中的topo结构

Kaldi中的topo结构，在每个样例中是以topo文件表示，在代码中是由HmmTopology这个类表示，拓扑结构中的参数的更新会在TransitionModel这个类体现出来。

下面是Kaldi中yesno样例下面的topo文件，文件位置：
egs/yesno/s5/data/lang/topo

这个文件是由utils/gen_topo.pl生成，而这个脚本是在utils/… 更多... “Kaldi中的topo结构”

2022年7月19日2022年7月28日

Kaldi中为什么要计算CMVN

CMVN是Cepstral Mean Variance Normalization的缩写，中文直译为倒谱均值方差归一化。这里插一句Cepstral这个词是就是谱（spectrum）这个单词的前4个字母倒过来。

在把MFCC送到解码器之前，kaldi会计算一个CMVN。为什么计算CMVN，下面给出一个理由
实际情况下，受不同麦克风及音频通道的影响，会导致相同音素的特征差别比较大… 更多... “Kaldi中为什么要计算CMVN”

2021年2月4日2022年8月2日

Kaldi查看文件的工具

kaldi官方提供了所有工具的说明
https://www.kaldi-asr.org/doc/tools.html

这里只是列出查看文件的工具．

Data from kaldiOfficial Documents。
Reproduced indicate the source.

Ark profile

copy-feats Can be used to change the format of feature dat… 更多... “Kaldi查看文件的工具”

2021年1月5日2022年8月26日

声学特征iVector及其Kaldi实现

提取流程

UBM
universal background model[1]
使用GMM建模，UBM的训练通过EM算法完成，有两种方法：
• 所有的数据训练出来一个UBM，需要保证训练数据的均衡
• 训练多个UBM，然后合在一起，比如根据性别分成两个，这样的话可以更有效的利用非均衡数据以及控制最后的UBM。
supervector

使用MAP adaptation对UBM的高斯进行线性插值，获得speaker相关的GMM… 更多... “声学特征iVector及其Kaldi实现”