カテゴリー: 論文紹介

モバイルデバイス向けの End-to-End ストリーミング音声認識

出典: Streaming End-to-end Speech Recognition For Mobile Devices Googleが2018年11月にArXiv.orgで発表した論文。Google Developers Blog の記事によると、Google の音声認識機能で、デバイス上で動作する Gboard の技術として使われている。 概要 これまでの研究では、ウェイクワード認識[4,…

ESPnet: End-to-End 音声処理ツールキット

Interspeech 2018にて、Johns Hopkins大学の渡部先生、MERL (米国三菱電機の研究所) の堀氏、NTT CS研の苅田氏、レトリバの西鳥羽氏、PFNの海野氏らが開発し、発表したEnd-to-Endの音声認識を行うツールキット。 出典: ESPnet: End-to-End Speech Processing Toolkit 参考スライド: https://www.slid…

ディープニューラルネットワークを使ったテキスト依存の話者認証 (d-vector)

ICASSP2014でJohns Hopkins大学、Googleが発表した論文。 出典:Deep neural networks for small footprint text-dependent speaker verification 概要 本論文では、テキストに依存した話者認証タスクをDeep Neural Network (DNN) で行う方法を述べる。システムは以下の3フェーズで構成…

完全教師ありニューラルネットワークによる話者ダイアリゼーション (UIS-RNN)

Google とコロンビア大学が 2018 年 11 月に arXiv.org で発表し、ICASSP 2019 でも発表した論文。 出典: Fully Supervised Speaker Diarization Blog: Google AI Blog: Accurate Online Speaker Diarization with Supervised Learning プログラム: ht…

話者の自動登録を使った全自動話者分離システム

米国の SalesTech スタートアップ、Chorus.ai が 2018 年 9 月に Interspeech 2018 で発表した話者分離に関する研究。 出典: Fully automatic speaker separation system, with automatic enrolling of recurrent speakers 研究の背景 営業トークにおいて、録音音声から話者を自…