資源簡介
OntoNotes 5.0的中文部分包括250K字的新聞專線數據,270K字的廣播新聞和170K的廣播會話。
新聞專線的數據來自中國樹庫5.0。 250K包括100K的新華新聞數據(chtb_001.fid到chtb_325.fid)和來自Sinorama新聞雜志的150K數據(chtb_1001.fid到chtb_1078.fid)。
廣播新聞數據是來自TDT4的274K字,并且是從LDC為自動內容提取(ACE)程序注釋的數據中選擇的。已將這些文件的編號chtb_2000.fid分配給chtb_3145.fid。
廣播對話數據是170K字,取自LDC的GALE數據。 50K的原始中文數據也用英文注釋,另外55K的中文數據代表原始英語廣播對話翻譯成中文。
Web數據包括215K令牌,其中15K來自P2.5評估,86K來自Dev09數據。此外,110K的Web數據由40K并行中文源數據和70K并行英文原始數據組成。
電話會話語料庫包括大約100K的中文CallHome數據,用解析,命題,名稱和共同參考信息注釋。
代碼片段和文件信息
評論
共有 條評論