資源簡介
NLP中常用的PTB語料庫,全名Penn Treebank。
Penn Treebank是一個項目的名稱,項目目的是對語料進行標注,標注內容包括詞性標注以及句法分析。
語料來源為:1989年華爾街日報
語料規模:1M words,2499篇文章

代碼片段和文件信息
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件?????884846??2011-02-23?22:08??data\ptb.char.test.txt
?????文件???10034964??2011-02-23?22:08??data\ptb.char.train.txt
?????文件?????786084??2011-02-23?22:08??data\ptb.char.valid.txt
?????文件?????449945??2010-08-07?07:32??data\ptb.test.txt
?????文件????5101618??2010-08-07?07:32??data\ptb.train.txt
?????文件?????399782??2010-08-07?07:31??data\ptb.valid.txt
?????文件????????609??2011-09-13?11:04??data\README
?????目錄??????????0??2019-04-07?14:57??data
-----------?---------??----------?-----??----
?????????????17657848????????????????????8
-----------?---------??----------?-----??----
?????文件?????884846??2011-02-23?22:08??data\ptb.char.test.txt
?????文件???10034964??2011-02-23?22:08??data\ptb.char.train.txt
?????文件?????786084??2011-02-23?22:08??data\ptb.char.valid.txt
?????文件?????449945??2010-08-07?07:32??data\ptb.test.txt
?????文件????5101618??2010-08-07?07:32??data\ptb.train.txt
?????文件?????399782??2010-08-07?07:31??data\ptb.valid.txt
?????文件????????609??2011-09-13?11:04??data\README
?????目錄??????????0??2019-04-07?14:57??data
-----------?---------??----------?-----??----
?????????????17657848????????????????????8
- 上一篇:東軟醫保監控數據庫表結構
- 下一篇:圖形交互系統設計
評論
共有 條評論