様々な話者のデータベースを作成する:
音声の録音
(約1時間程度)
音声波形のラベリング
(テキストと音素を合わせる)
韻律特徴の抽出
(音量、タイミングや抑揚など)
インデックスの作成
(音素ごとの特徴から波形へのポインタ)
単位選択のための重み学習
(最適な波形を検索するのに必要)
現在、約75種類のデータベースが作成済み