このデータについて

1.収録と書き起こし
 この対話データは,科学技術振興機構(JST)の戦略的基礎研究推進事業(CREST)「表現豊かな発話音声のコンピュータ処理システム」(2000年度〜2004年度,研究報告コード:R000000216,研究代表者:ニック・キャンベル(Nick Campbell))の一環として,意味構造グループ(通称「神戸グループ」)が収録し,文字(書き起こし)を付けたものです。

 収録の詳細は以下の通りです。

収録環境:ほとんどの対話は,自宅や大学研究室内で収録しました。一部の対話は,対面式録音ブース(ガラス窓越しに相手を見ながら会話できる,隣接した2部屋。各々の声を,相手の声と混ざることなく取り出せる)で収録しました。

収録機材:DAT TCD-T10(SONY)を使いました。

課題:対話する人(インフォーマント)に課題は一切与えられていません。

その他:データ収録に際して,インフォーマントには法律書式での事前承諾を得ました。収録後,個人の特定によるプライバシーの侵害など,法律的な問題が生じる可能性のある発言部分には,ブザー音(ビープ音)をかぶせて聞こえないようにしました。インフォーマントには原則として謝金を払いましたが、種々の事情で払われなかった場合もあります。

 音声を書き起こした際のルールについては,「書き起こしルール」をご覧ください。上記の問題発言部分は{XXXX}のように,読めなくしてあります。
2.公開
 上記「神戸グループ」に所属していた定延利之(現 神戸大学大学院国際文化学研究科 教授)は,このような自然な日本語会話のデータが,日本語教育や日本語研究,音声コミュニケーション研究にとって,きわめて高い価値を有すると考えました。そこで,上記プロジェクト代表のニック・キャンベル先生(nick@tcd.ie)から了承を頂いた上で,世界じゅうで広く利用してもらうために,対話データをインターネット上で公開することにしました。

 公開のための作業として,データサーバシステムを確立し,文字書き起こしを精密化し,問題発言のチェックを再確認しました。また,録音ブース以外で収録された対話の場合,発言が相手側のマイクにも微かに入っているので,相手側の音声データの該当箇所に無音化処理を施しました。インフォーマントに連絡をとり,双方から承諾を得られた対話だけをネット上に公開するようにしています。

以上の作業は,日本学術振興会の科学研究費補助金による基盤研究(A)「人物像に応じた音声文法」(2007年度〜2010年度,課題番号:19202013,研究代表者:定延利之),基盤研究(A)「状況に基づく日本語話しことばの研究と,日本語教育のための基礎資料の作成」(2011年度〜2014年度,課題番号:23242023,研究代表者:定延利之),基盤研究(B)「音声コミュニケーションにおけるノンバーバル発話の研究」(2007年度〜2010年度,課題番号:19300073,研究代表者:ニック・キャンベル)の活動の一環としておこなわれています。

 作業は進行中で,まだ一部のデータしかアップできていません。今後にご期待ください。

 なおご不明の点がありましたら,下記の連絡先までお問い合わせください。

連絡先:
定延利之(さだのぶ・としゆき)
sadanobu@kobe-u.ac.jp
神戸大学大学院国際文化学研究科
657-8501 神戸市灘区鶴甲1-2-1

Nick Campbell
nick@tcd.ie
Center for Language and Communication, Trinity College Dublin, Ireland.
Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 2.1 Japan License.