SalesTech – SalesTech

2019-05-09bySalesTech

Interspeech 2010でBrno UniversityのToma´s Mikolov氏らによって発表された論文。RNN LMは、ESPnetにも実装されている。出典：Recurrent Neural Network Based Language Model 概要 RNN (Recurrent Neural Network) を言語モデルに使う試みは、Bengioらによって提案されている。…

Read more about RNNを用いた言語モデル (RNN LM)

Uncategorized

2019-05-04bySalesTech

出典: Streaming End-to-end Speech Recognition For Mobile Devices Googleが2018年11月にArXiv.orgで発表した論文。Google Developers Blog の記事によると、Google の音声認識機能で、デバイス上で動作する Gboard の技術として使われている。概要これまでの研究では、ウェイクワード認識[4,…

論文紹介

2019-04-13bySalesTech

Interspeech 2018にて、Johns Hopkins大学の渡部先生、MERL (米国三菱電機の研究所) の堀氏、NTT CS研の苅田氏、レトリバの西鳥羽氏、PFNの海野氏らが開発し、発表したEnd-to-Endの音声認識を行うツールキット。出典: ESPnet: End-to-End Speech Processing Toolkit 参考スライド: https://www.slid…

論文紹介

2019-04-10bySalesTech

ICASSP2014でJohns Hopkins大学、Googleが発表した論文。出典：Deep neural networks for small footprint text-dependent speaker verification 概要本論文では、テキストに依存した話者認証タスクをDeep Neural Network (DNN) で行う方法を述べる。システムは以下の3フェーズで構成…

論文紹介

2019-04-09bySalesTech

2011 年に、MITのNajim Dehakらが開発し、IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSINGに掲載された論文。出典: Front-End Factor Analysis for Speaker Verification 概要単純な因子分析を使って話者識別を行う。以下の3つの技術を用いて比較した結果、LDAが最も…

論文紹介

2019-04-05bySalesTech

Google とコロンビア大学が 2018 年 11 月に arXiv.org で発表し、ICASSP 2019 でも発表した論文。出典: Fully Supervised Speaker Diarization Blog: Google AI Blog: Accurate Online Speaker Diarization with Supervised Learning プログラム: ht…

論文紹介

2019-04-04bySalesTech

米国の SalesTech スタートアップ、Chorus.ai が 2018 年 9 月に Interspeech 2018 で発表した話者分離に関する研究。出典: Fully automatic speaker separation system, with automatic enrolling of recurrent speakers 研究の背景営業トークにおいて、録音音声から話者を自…

Read more about 話者の自動登録を使った全自動話者分離システム

論文紹介

作者別: SalesTech

RNNを用いた言語モデル (RNN LM)

モバイルデバイス向けの End-to-End ストリーミング音声認識

ESPnet: End-to-End 音声処理ツールキット

ディープニューラルネットワークを使ったテキスト依存の話者認証 (d-vector)

因子分析を利用した話者認証 (i-vector)

完全教師ありニューラルネットワークによる話者ダイアリゼーション (UIS-RNN)

話者の自動登録を使った全自動話者分離システム