RNNを用いた言語モデル (RNN LM)
Interspeech 2010でBrno UniversityのToma´s Mikolov氏らによって発表された論文。RNN LMは、ESPnetにも実装されている。出典:Recurrent Neural Network Based Language Model 概要 RNN (Recurrent Neural Network) を言語モデルに使う試みは、Bengioらによって提案されている。…
Interspeech 2010でBrno UniversityのToma´s Mikolov氏らによって発表された論文。RNN LMは、ESPnetにも実装されている。出典:Recurrent Neural Network Based Language Model 概要 RNN (Recurrent Neural Network) を言語モデルに使う試みは、Bengioらによって提案されている。…
出典: Streaming End-to-end Speech Recognition For Mobile Devices Googleが2018年11月にArXiv.orgで発表した論文。Google Developers Blog の記事によると、Google の音声認識機能で、デバイス上で動作する Gboard の技術として使われている。 概要 これまでの研究では、ウェイクワード認識[4,…
Interspeech 2018にて、Johns Hopkins大学の渡部先生、MERL (米国三菱電機の研究所) の堀氏、NTT CS研の苅田氏、レトリバの西鳥羽氏、PFNの海野氏らが開発し、発表したEnd-to-Endの音声認識を行うツールキット。 出典: ESPnet: End-to-End Speech Processing Toolkit 参考スライド: https://www.slid…
ICASSP2014でJohns Hopkins大学、Googleが発表した論文。 出典:Deep neural networks for small footprint text-dependent speaker verification 概要 本論文では、テキストに依存した話者認証タスクをDeep Neural Network (DNN) で行う方法を述べる。システムは以下の3フェーズで構成…
2011 年に、MITのNajim Dehakらが開発し、IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSINGに掲載された論文。 出典: Front-End Factor Analysis for Speaker Verification 概要 単純な因子分析を使って話者識別を行う。以下の3つの技術を用いて比較した結果、LDAが最も…
Google とコロンビア大学が 2018 年 11 月に arXiv.org で発表し、ICASSP 2019 でも発表した論文。 出典: Fully Supervised Speaker Diarization Blog: Google AI Blog: Accurate Online Speaker Diarization with Supervised Learning プログラム: ht…
米国の SalesTech スタートアップ、Chorus.ai が 2018 年 9 月に Interspeech 2018 で発表した話者分離に関する研究。 出典: Fully automatic speaker separation system, with automatic enrolling of recurrent speakers 研究の背景 営業トークにおいて、録音音声から話者を自…