-
大小: 1.24MB文件類型: .rar金幣: 1下載: 0 次發布日期: 2021-01-06
- 語言: Python
- 標簽:
資源簡介
花了4天時間寫的,很麻煩,使用的是python3版本,自己編寫的,能夠完美運行,只需要運行主程序就行,數據啥的都準備好了
代碼片段和文件信息
import?numpy?as?np
import?jieba
import?jieba.analyse
from?sklearn.feature_extraction.text?import?CountVectorizer
from?sklearn.feature_extraction.text?import?TfidfTransformer
def?get_keywords(num_data):
????
????wordslist=[]
????for?i?in?range(num_data):??#‘/tmp/hello
????????with?open(‘新聞匯總0-299/%s.txt‘%i‘r‘)?as?f:
????????????st?=str()
????????????data?=f.readlines()[0]?#【0】代表列表的字符串形式給data
????????????keywords?=?jieba.analyse.extract_tags(data?topK=500
???????????????????????????????????????????????????withWeight=True?allowPOS=(‘n‘‘nr‘‘ns‘))#對字符串data進行語義分析提取關鍵字和詞頻
????????????#print(keywords)
????????????if?len(keywords)<20:?#爬取的內容之中有個別是標題,提取關鍵詞的時候不足20個,省略
???????????????#?print(‘內容不足20個字,省去,繼續下一步......‘)
????????????????continue
????????????
????????????for?e
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件???????3561??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\0.txt
?????文件?????????46??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\1.txt
?????文件???????4385??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\10.txt
?????文件????????455??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\11.txt
?????文件????????961??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\12.txt
?????文件???????3163??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\13.txt
?????文件???????1801??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\14.txt
?????文件????????367??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\15.txt
?????文件???????1170??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\16.txt
?????文件???????2918??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\17.txt
?????文件??????16524??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\18.txt
?????文件????????146??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\19.txt
?????文件???????5040??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\2.txt
?????文件???????3561??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\20.txt
?????文件???????3047??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\21.txt
?????文件?????????51??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\22.txt
?????文件?????????55??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\23.txt
?????文件???????1599??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\24.txt
?????文件???????1020??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\25.txt
?????文件?????????53??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\26.txt
?????文件???????1480??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\27.txt
?????文件???????1612??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\28.txt
?????文件???????1262??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\29.txt
?????文件???????1845??2017-11-07?21:36??網頁聚類算法\原始語料庫\中國國內新聞0-81\3.txt
?????文件???????1678??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\30.txt
?????文件????????643??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\31.txt
?????文件???????1031??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\32.txt
?????文件???????3117??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\33.txt
?????文件?????????53??2017-11-07?21:37??網頁聚類算法\原始語料庫\中國國內新聞0-81\34.txt
?????文件??????????0??2017-09-11?10:49??網頁聚類算法\原始語料庫\中國國內新聞0-81\35.txt
............此處省略891個文件信息
評論
共有 條評論