資源簡介
網絡爬取豆瓣電影前250,將結果寫入excel表。通過寫入文檔,生成云文字展示。

代碼片段和文件信息
#?-*-?coding:?utf-8?-*-
#使用matplotlib與wordcloud,jieba,collections庫
import?matplotlib.pyplot?as?plt
#from?scipy.misc?import?imread
from?wordcloud?import?WordCloud#一個文本對應的詞云
#import?jieba#分詞
#from?collections?import?Counter
text?=?open(‘movie250.txt‘?‘r‘?encoding=‘utf-8‘).read()
#text_jieba?=?list(jieba.cut(text))
#c?=?Counter(text_jieba)??#?計數
#word?=?c.most_common(800)??#?出現次數最多,取前500
wc?=?WordCloud(
????font_path=‘C:\Windows\Fonts\SIMYOU.TTF‘??#?指定中文字體
????background_color=‘black‘??#?設置背景顏色
????max_words=2000??#?設置最大顯示的字數
????max_font_size=100??#?設置字體最大值
????#min_font_size=40
????height=500
????width=1000
????random_state=20??#?設置多少種隨機狀態,即多少種配色
)
#wc.generate_from_frequencies(dict(word))??#?生成詞云
wc.generate_from_text(text)#按照空格生成云詞
#splittext?=?jieba.cut(text?cut_all?=?True)
#wc2?=?(“?“.splittext)
wc.to_file(‘result.jpg‘)
#?show
plt.imshow(wc)#將一個image顯示在二維坐標軸
plt.axis(“off“)#坐標軸
plt.figure()#自定義畫布大小
plt.show()
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????????3752??2019-01-11?21:01??movie250.txt
?????文件??????346227??2019-07-07?11:59??python課程設計報告.docx
?????文件??????129062??2019-01-09?10:15??result.jpg
?????文件????????1181??2019-01-09?10:14??云文字.py
?????文件????????3500??2019-01-09?00:24??網頁爬取.py
?????文件???????88064??2019-01-11?21:01??豆瓣高分電影250.xls
評論
共有 條評論