モバイルデバイス向けの End-to-End ストリーミング音声認識

2019-05-04bySalesTech

出典: Streaming End-to-end Speech Recognition For Mobile Devices

Googleが2018年11月にArXiv.orgで発表した論文。Google Developers Blog の記事によると、Google の音声認識機能で、デバイス上で動作する Gboard の技術として使われている。

これまでの研究では、ウェイクワード認識[4,5,6]、大規模な語彙の連続認識[7,8]がある。また、E2Eの音声認識では、CTCやRNN-T、AttentionベースのEncoder-decoder、RNN-HMMのハイブリッドのモデルが知られている。Attentionベースのストリーミングでは、MoChA[21]が開発されている。この研究では、RNN-Tを使ったストリーミング音声認識について述べる。
リアルタイムで音声認識を行うには、以下のような課題をクリアする必要がある。

正確でありながら処理時間を掛けず遅延しない
ユーザ固有の情報を認識すること（連絡先や音楽の名前）
電話番号など数字の羅列も読み取る

このため、RNN-Tに以下の拡張を行った。

Layer Nomalization [23]
大きなバッチサイズの利用[24]
word-piece target[25]
推論と学習を高速化、メモリ消費量を削減するtime reduction layer[26]
ユーザ独自のコンテキストを学習するshallow-fusion approach[27, 28]
E2Eが不得意な、数字の羅列を認識する技術

RNN-Transducer[11,19]は、CTCがフレームごとの特徴量 (x) から音素列 (y) に直接変換するだけなのに対し、RNN-Tは過去の認識結果の音素列を含めて推論する特徴がある。また、入力する過去の認識結果の音素列はブランク（どの音素にもマッチしなかったフレーム）を取り除いて入力する。

RNN-Tをモバイルデバイスに実装するにあたって様々な方法を試したが、結果として8層の単方向のLSTMを使っている。
Encoderの各層にConnectionを減らすためProjection Layerを追加し、学習と推論の時間短縮のためtime-reduction layerを追加した。
訓練時にlayer normalization[23]とword-piece subword units [25]、forward-backward algorithm [24]を実装したことにより安定性、精度が向上。
推論時には、RNNのキャッシュを行い50-60%計算量を縮減させた。
encoderとprediction networkに別々のスレッドを用い、非同期のパイプライン処理を使い、パイプライン処理を行わなかったときに比べて処理時間を28%抑えている。
メモリの消費量を抑えるため、32bit浮動小数点数から8bitの固定小数点数に変更した。これにより。ARMのプロセッサを使った場合、3倍高速化した。

コンテキストによるバイアスとは、ユーザの好きな音楽、場所、連絡先、インストールしたアプリなど、ユーザの状況に応じた変化のこと。
これに対応するため、言語モデルへの当てはめを行う際にshallow-fusionと呼ばれる、WFSTに対してユーザに特徴的な単語に重み付けをする処理を行っている。

住所の番地の読み上げ（例：navigate to two twenty one b baker street）などの精度を向上させるため、言語モデルにクラス付け(例: ADDRESSNUM)を行って回避している。このクラスに関しては別のFSTで音声認識を行う仕掛けになっている。
数字の羅列を正確に認識させるため、合成音声を500万発話作成し、学習させている。

10msのオーバラップを含む25msのフレームについて、80次元のLog-Mel フィルタバンクを特徴量として作成した。3フレーム前までのフレームを30msにダウンサンプリングし重ね合わせ。
Encoderは8層のLSTMレイヤーでそれぞれ640次元のProjection層。time-reduction layerを含んでいる。Prediction networkは、2層のLSTMレイヤー、640次元のProjection層で構成。EncoderとPrediction networkは、それぞれJoint Networkに与えられ，Softmaxに与えられる。