資源簡介
本資源是維基百科中文網頁的語料庫(包含處理過的與未處理的),版本為2020-8-3版本,可適用于中文語料處理等訓練集。由于文件過大,放在的百度網盤中,如果網盤被和諧或者其他原因造成的無法打開,請評論留言,本人看到后立即更改。
文件中包含的內容有:未經處理的維基百科語料庫、使用代碼處理繁體轉簡體并jieba分詞后的語料庫、繁體轉簡體的代碼,讀者可根據自己的需要進行相應的提取。
代碼片段和文件信息
- 上一篇:老毛子華碩固件DDNS ipv6
- 下一篇:軟件工程所有文檔模板及詳細案例
評論
共有 條評論