情報科学ゼミナールの資料保管用リポジトリです.
所属: 塩田研究室
-
第1回
- 10/11(水)
- 18:00~
- STFT解説論文を読んで理解したことをまとめる.
- 音声ファイルに使われる拡張子を調べて違いをまとめる.
- Audacityをダウンロードして自分の声を録音し,スペクトログラムを見てみる.
-
第2回
- 10/19(木)
- 14:40~
- STFTのパラメータを変更して,時間分解能と周波数分解能の変化を見る.
- 話者認識に関する記事を読んで,まとめる
-
第3回
- 10/26(木)
- 13:00~
- Audacity+PCのマイクで音声をサンプリング周波数16kHzにして撮り直してスペクトログラムを見直す
- 自分のスマホのアプリで音声収録してスペクトログラムを見る(16kHz, 非圧縮)
- 下記論文についてまとめてくる
- 先週の機械学習の部分を読んで見る(まとめなくて良い)
- 評価方法としてEER(等価エラー率)DCF, ROCカーブについて調べる
-
第4回
- 11/13(月)
- 14:40~
- ECAPA-TDNNを用いた話者照合
-
第5回
- 11/20
- 14:40~
- 前回に加え,音声を追加して同様に検証
- 全ペア数,性別,収録環境等も併記する
- 音声にノイズを載せて検証
- マスクあり・なしで検証
-
第6回
- 12/04
- 14:40~
- 前回は条件の異なる発話をごちゃまぜにしていたので,検証したい条件が1つだけ異なるような環境で検証を行う.
- マスクおよびノイズのあり・なしによるエラー率の変化を求める.
- マスクの有無
__
とm_
の比較
- ノイズの有無
__
と_n
の比較m_
とmn
の比較
- マスクの有無
-
第7回
- 12/11
- 14:40~
- 録音環境の違いによるエラー率の変化をみる.
- スマホか,パソコンか
- 録音環境の違いによるエラー率の変化をみる.
-
第8回
- 12/25
- 14:40~
- 前回はwavの長さが異なっていることがあり,その影響を排除するため,
sox
等のコマンドで長さを揃えて再検証. - 全発話に同じフィルターをかけ,どの周波数帯が照合にクリティカルか調べる
- いろいろな周波数で切ってみて実験
- 全員の結果をmergeして1つのスライドにまとめる
- 前回はwavの長さが異なっていることがあり,その影響を排除するため,
-
第9回
- 01/15
- 14:40~
- 前回は各人がそれぞれローパス,ハイパス,バンドパスを適用して検証を行ったが,フィルタ設計に用いる周波数がまちまちであった
- 今回はフィルタ設計時に注目する周波数を統一して,もう一度検証を行う.
- 50, 300, 3400, 7000
- 電話の周波数帯を参考にする,https://xtech.nikkei.com/it/atcl/column/14/228621/100100019/
- 僕はバンドパスをかけます
- 50~7000(VoLTE)
- 300~3400(旧規格)
- 50~3400(squash)
- 300~7000(squash)
-
第10回
- 01/22
- 14:40~
- これまでに行った内容をスライドにまとめてきます.
-
第11回
- 01/29
- 14:40~
- 発表内容を取捨選択してもらったので,それを反映させます.
- 発表の練習をしてきます
-
第12回
- 02/01
- 1700~
- 発表会.