様々な話者のデータベースを作成する：

音声の録音 (約１時間程度)

音声波形のラベリング(テキストと音素を合わせる)

韻律特徴の抽出 (音量、タイミングや抑揚など)

インデックスの作成 (音素ごとの特徴から波形へのポインタ)

単位選択のための重み学習 (最適な波形を検索するのに必要)

現在、約７５種類のデータベースが作成済み