2014年 11月 30日
初心者が行う話者適応モデル作成4 |
音の録音
soundengine freeでビジュアルをクリックするとメーターのようなものが出てくる。このメーターを右クリックしてケプラストラムアナライザーにする。これで音声を再生したときに一番大きな山の下ら辺がF0の大体の目安なので、いくつも音声データを再生して大体の数値を把握しておく。
・拡張子 wavファイル
・周波数 48000
・ビット 16
・チャンネル 1
音の周波数の見極め方
praatを使ってf0を求めます。
セグメンテーション
ubuntu14.04はwineを入れることによってubuntuでもセグメンテーションができる。
アキヒロさんのところから借りてきたsegment_atr503_windows-v1.0とsegment_adapt_windows-v1.0のbinをダウンロードしてきたlinuxようのjuliusと置き換え、perlに書かれているjulius-4.2.1.exeからダウンロードしてきたlinux用のjuliusに書き換えて使う。
あとはセグメンテーションしたファイルの名前を変更してF0の値をいじってmakeすればできるはず。
ただ、自分も走りたてのため持っている音声データが少ない。
色んな方の音声データからセグメンテーションして clb jmk rms などを埋めていくとより良い音声データが作れると思う。
by ragolun
| 2014-11-30 19:56
| 合成音合