因子分析を利用した話者認証 (i-vector)

2019-04-09bySalesTech

2011 年に、MITのNajim Dehakらが開発し、IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSINGに掲載された論文。

出典: Front-End Factor Analysis for Speaker Verification

単純な因子分析を使って話者識別を行う。
以下の3つの技術を用いて比較した結果、LDAが最も良いスコアとなった。

within-class covariance normalization (WCCN)
linear discriminate analysis (LDA)
nuisance attribute projection (NAP)

これまでの研究では、Joint Factor Analysis (JFA) [1, 2, 3]が、テキストに依存しない話者識別のタスクNISTにおいて、State of the Artだった。また、SVMを用いた方法や、JFAの出力を用いてSVMの入力にして識別する方法なども考案されていた[6]。

話者認証システムでは、2つのサブシステムで構成されている。1つめは、コサインカーネルを用いたSVMベースで、全体からの類似度を測るもの。2つめは求めたある対象の話者とコサイン距離を求めるもの。
伝統的なJFAを用いた方法では、話者とチャネルをそれぞれ因子として2つの空間を定義する。

話者空間(speaker space)：声（会話毎に異なることのない）に対する固有行列V
チャネル空間(channel space)は、チャネル（会話毎に異なる）に対する固有行列U

M: スーパーベクトル
m: 話者およびチャンネルに依存しないスーパーベクトル。
D: 話者空間のサブ空間

これに対して、本論文で提案する方式は1つの空間（総変動空間）として定義している。これまで、チャネル空間に話者の情報が含まれることが実験でわかっておりこのようにしている。

M: スーパーベクトル
m: 話者およびチャンネルに依存しないスーパーベクトル。（UBMスーパーベクトルと見なすことができる）
T: 低次元の矩形行列
w: 正規分布に従うランダムなベクトル (これをidentity vector, 略してi-vectorと呼ぶ。)

このモデルでは、Mは、平均ベクトルmと共分散行列TTtの正規分布と見ることができ、これは単純な因子分析とも言える。wは隠れ変数であり、発話から求められたBaum–Welch 統計量の事後分布であり、i-vectorはその分布の平均になる。なお、Baum–Welch 統計量は、UBM(universal background model, 不特定話者の平均的な音声モデル)によって求めることができる。

（略）

参考
http://no-communication.hatenablog.com/entry/20140502/1399034887

論文紹介