書き起こしルール

+ 日本語音声コーパスタグ付け記号(案)

種類

番号

タグの内容

英語名

タグ記号

 

1

笑い

laughing

W

 

2

coughing

<CO>

 

3

叫び

crying

<CR>

 

4

ささやき/不明瞭音

murmur/uncertain

<MU>

 

5

舌鼓

smack

<SM>

 

6

咳払い

hawk

<HA>

 

7

吸気音

ingressive

S

 

8

呼吸音

breathing

<BG>

 

9

力み声

creaky

<CK>

 

10

息混じりの声

breathy

<BR>

 

11

震える声

trill

<TR>

 

12

音変異

variable

<VA>

 

13

鼻音化

nasalization

<NA>

 

14

母音の伸長

lengthening

<LE>

 

15

焦点

forcus

<FO>

 

16

流暢でない・言い淀み

disfluency

<DF>

 

17

ポーズ

pause

 

18

沈黙

silence

 

20

上昇

rise

<RI>

 

21

下降

fall

<FA>

 

23

始める

start

<-s>

 

24

終わる

end

<-e>

 

26

ノイズ

noise

<NO>

 

27

フィラー

filler

<FI>

 

28

オノマトペ

onomatopoeia

<ON>

 

29

繰り返し

repeat

<RE>

 

30

ビープ音処理

 

{固有名詞}

 

31

書き起こし不可

 

[]

 

【注】

1. タグは該当する箇所の開始位置の直下につける。笑いながらの発話は,<あああ>[@W]で示す。

例:「(途中から笑いながら)子供やんか、あはははは」

→「子供<やんか、あはははは>[@W]」

2.「流暢でないdisfluency」は、言いよどみ、言い間違い、訂正、吃音、非連続的発話など、広い意味での「流暢でない」もののすべてを含む。

3.「繰り返しrepeat」は,形態素単位で繰り返されているもののみを指す。したがって,形態素の単位以下で繰り返されているものは「流暢でないdisfluency」に分類される。

例:「ヤ,山形からなんか」→<DF>

     :「いや、でも、ちょっと、ちょっとすごいでえ」→<RE>

4. 音の脱落(音素の脱落を含む)や母音の無声化などは「音変異<VA>」とする。