91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 12KB
    文件類型: .py
    金幣: 2
    下載: 1 次
    發布日期: 2021-07-11
  • 語言: Python
  • 標簽: python??詞頻??詞云??

資源簡介

代碼的詳解在我的博客中有所介紹,或者也可以看我的知乎文章:https://zhuanlan.zhihu.com/p/103080917。
這個是.py文件,可以直接進行調試。我是在python3.7版本下進行調試的,不同版本的python語法可能會略有不同。調試前需要安裝一些庫,在.py文件的開頭有所說明。調試的一些所需文件、部分說明,可以在這個鏈接中進行下載:https://pan.baidu.com/s/19oFMA0Aa2kAJRJMM8ZO6Vg;提取碼:lf38。
有疑問可以評論說哈~

資源截圖

代碼片段和文件信息

‘‘‘
運行前:
1.將?分析文檔、用戶詞典、停用詞庫、詞頻背景?放在這一程序的同一目錄下,并更改相應變量名稱。
其中,分析文檔為必須項,其余功能用戶可根據個人需求進行選用(不用的話可以注釋掉)
2.先通過cmd安裝相關庫(部分可能已系統內置),格式如:
pip?install?re
pip?install?jieba
pip?install?collections
pip?install?numpy
pip?install?PIL
pip?install?wordcloud
pip?install?matplotlib.pyplot
(當然也可以用其他方式安裝啦,這里只是舉個例子)
‘‘‘



#?提示當前狀態
print(‘正在處理,請稍等……?:D\n‘)


#?主要功能自定義設置
Analysis_text?=?‘分析文檔.txt‘????????#?分析文檔
userdict?=?‘用戶詞典.txt‘?????????????#?用戶詞典
StopWords?=?‘停用詞庫.txt‘????????????#?停用詞庫
number?=?100??????????????????????????#?統計個數
Output?=?‘詞頻.txt‘???????????????????#?輸出文件
background?=?‘詞頻背景.jpg‘???????????#?詞頻背景


#?導入擴展庫
import?re???????????????????????????#?正則表達式庫
import?jieba????????????????????????#?結巴分詞
import?jieba.posseg?????????????????#?詞性獲取
import?collections??????????????????#?詞頻統計庫
import?numpy????????????????????????#?numpy數據處理庫
from?PIL?import?Image???????????????#?圖像處理庫
import?wordcloud????????????????????#?詞云展示庫
import?matplotlib.pyplot?as?plt?????#?圖像展示庫(這里以plt代表庫的全稱)


#?讀取文件
fn?=?open(Analysis_text‘r‘encoding?=?‘UTF-8‘)??#?打開文件
string_data?=?fn.read()??????????????????????????#?讀出整個文件
fn.close()???????????????????????????????????????#?關閉文件


#?文本預處理
pattern?=?re.compile(u‘\t|\n|\.|-|:|;|\)|\(|\?|“‘)?#?定義正則表達式匹配模式(空格等)
string_data?=?re.sub(pattern?‘‘?string_data)?????#?將符合模式的字符去除


#?動態調整詞典
jieba.suggest_freq(‘小小花‘?True)?????#True表示該詞不能被分割,False表示該詞能被分割


#?添加用戶詞典
jieba.load_userdict(userdict)


#?文本分詞
seg_list_exact?=?jieba.cut(string_data?cut_all=False?HMM=True)????#?精確模式分詞+HMM
object_list?=?[]


#?去除停用詞(去掉一些意義不大的詞,如標點符號、嗯、啊等)
with?open(StopWords?‘r‘?encoding=‘UTF-8‘)?as?meaninglessFile:
????stopwords?=?set(meaninglessFile.read().split(‘\n‘))
stopwords.add(‘?‘)
for?word?in?seg_list_exact:?????????#?循環讀出每個分詞
????if?word?not?in?stopwords:???????#?如果不在去除詞庫中
????????object_list.append(word)????#?分詞追加到列表


#?詞頻統計
word_counts?=?collections.Counter(object_list)???????#?對分詞做詞頻統計
word_counts_top?=?word_counts.most_common(number)????#?獲取前number個最高頻的詞


#?英文詞性轉中文詞性字典:簡潔版
En2Cn?=?{
????‘a‘????:?‘形容詞‘
????‘ad‘???:?‘形容詞‘
????‘ag‘???:?‘形容詞‘
????‘al‘???:?‘形容詞‘
????‘an‘???:?‘形容詞‘
????‘b‘????:?‘區別詞‘
????‘bl‘???:?‘區別詞‘
????‘c‘????:?‘連詞‘
????‘cc‘???:?‘連詞‘
????‘d‘????:?‘副詞‘
????‘e‘????:?‘嘆詞‘
????‘eng‘??:?‘英文‘
????‘f‘????:?‘方位詞‘
????‘g‘????:?‘語素‘
????‘h‘????:?‘前綴‘
????‘i‘????:?‘成語‘
????‘j‘????:?‘簡稱略語‘
????‘k‘????:?‘后綴‘
????‘l‘????:?‘習用語‘
????‘m‘????:?‘數詞‘
????‘mq‘???:?‘數量詞‘
????‘n‘????:?‘名詞‘
????‘ng‘???:?‘名詞‘
????‘nl‘???:?‘名詞‘
????‘nr‘???:?‘名詞‘
????‘nr1‘??:?‘名詞‘
????‘nr2‘??:?‘名詞‘
????‘nrf‘??:?‘名詞‘
????‘nrfg‘?:?‘名詞‘????
????‘nrj‘??:?‘名詞‘
????‘ns‘???:?‘名詞‘
????‘nsf‘??:?‘名詞‘
????‘nt‘???:?‘名詞‘
????‘nz‘???:?‘名詞‘
????‘o‘????:?‘擬聲詞‘
????‘p‘????:?‘介詞‘
????‘pba‘??:?‘介詞‘
????‘pbei‘?:?‘介詞‘
????‘q‘????:?‘量詞‘
????‘qt‘???:?‘量詞‘
????‘qv‘???:?‘量詞‘
????‘r‘????:?‘代詞‘
????‘rg‘???:?‘代詞‘
????‘rr‘???:?‘代詞‘
????‘

評論

共有 條評論