CV / MLのメモ

論文・勉強の備忘録

PERMUTATION INVARIANT TRAINING OF DEEP MODELS FOR SPEAKER-INDEPENDENT MULTI-TALKER SPEECH SEPARATION (ICASSP2017)

Dong Yu, Morten Kolbæk, Zheng-Hua Tan, and Jesper Jensen, "PERMUTATION INVARIANT TRAINING OF DEEP MODELS FOR SPEAKER-INDEPENDENT MULTI-TALKER SPEECH SEPARATION", ICASSP2018, arxiv,

はじめに

研究の関係で音声について調査. この研究はDeepで音声分離をするにあたって各分離要素にラベルがつけられていない場合に生じる,学習時の割り当て問題の解決を行っている.

Approach

今までの音声分離のほとんどは,構成音声に決められたクラス数のラベルが与えられていて,各クラスに対する回帰問題として取り組まれていた.今回はそれらラベルが存在しない条件で分離を行うことを考えている. ラベルなし分離では,学習時の教師の割り当て問題が生じる. NNで分離を行うとき,複数チャネルに分離された各音声(もしくはマスク)が出力されるが,分離できたとしてどのチャネルにどの音声を出力すべきか(permutation)は自明ではない. 分離がうまくできていても,仮に用意された教師のpermutationと異なるpermutationで出力してしまった場合はロスは大きくなってしまう.これは「分離」を目的にするにあたっては妥当な学習ではなく,特に教師のpermutationに一貫性がない場合は学習がうまく進まないことが考えられる.

この問題に対して,全通りの教師割り当ての中で最もロスが小さくなる割り当てを実際の教師として使用する学習方法(PIT)で解決している. f:id:tomoyukun:20180819161109p:plain

Results

学習時の挙動.PIT学習を行うと学習が進む.逆に用いないと,前述の話にもあったように教師の一貫性の欠如から学習がほとんど進んでいない. f:id:tomoyukun:20180819161143p:plain

分離の際,固定windowに区切って入出力をしていくため,一つの音声データ内で同じ音声が必ずしも同じチャネルに出力されるとは限らない.したがって,テスト時にwindow間で理想的な音声追跡を行う場合(opt. assign)と,一切追跡を行わない場合(def. assign)の両方で評価している. CCがclosedな,OCはopenな設定.すべてsignal-to-distortion ratio (SDR)を指標に用いている. f:id:tomoyukun:20180819161439p:plain

Memo

正直,ドメイン知識不足のせいで実験結果の傾向(windowサイズと精度の関係)が直感と異なっている部分があった.

非常にシンプルかつ,各分離要素のラベルなしで分離ができるので手動での混合を行えば教師なしで学習することができるのは魅力的.

PITによる学習は,ロスの大きさを元にPseudo labelを与えている感覚にも近いと考えた. PITによって学習されたNNは最終的には何らかの音声の傾向を元にチャネルを割り当てていると考えられる(でないと過学習している)が,実際に分離された音をチャネルごとに聞いて確かめてみたい.