資源簡介
中文文本分類語料(復旦)-訓練集和測試集
這個鏈接是訓練集,本語料庫由復旦大學李榮陸提供。test_corpus為測試語料,共9833篇文檔;train_corpus為訓練語料,共9804篇文檔,兩個預料各分為20個相同類別。訓練語料和測試語料基本按照1:1的比例來劃分。使用時盡量注明來源(復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組)。文件較大,下載時請耐心等待。
代碼片段和文件信息
評論
共有 條評論