資源簡介
一個課程作業,寫的比較渣!!!,包含了英文文本的去特殊符號、去停用詞、詞干化、計算文本相似度、PCA降維,最后K-means聚類以及可視化等

代碼片段和文件信息
#coding:utf-8
import??os
import??re
def?Delete():
????for?i?in?range(500):
????????f=open(‘E:/English/SourceData/‘+str(i)+‘.txt‘‘rb‘)
????????content=f.read().decode(‘utf-8‘)
????????del_content=re.sub(r“[\s\n\d#=||&:?<>}{@+\.\!\/.$%^*_\---(+)\“\‘]+|[+——!,。??、\[~@=《》:#;::\]’“”‘¥%……&*()]+]“‘\n‘content)
????????news=‘‘.join(del_content).replace(‘?‘‘‘)
????????f_w=open(‘E:/English/DeleteChar/‘+‘New_‘+str(i)+‘.txt‘‘w‘)
????????f_w.write(news.lower())
Delete()
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2017-11-27?14:55??EnglishChuLi\
?????目錄???????????0??2017-11-27?14:56??EnglishChuLi\.idea\
?????文件?????????398??2017-11-21?10:32??EnglishChuLi\.idea\EnglishChuLi.iml
?????文件?????????212??2017-11-21?10:32??EnglishChuLi\.idea\misc.xm
?????文件?????????276??2017-11-21?10:31??EnglishChuLi\.idea\modules.xm
?????文件???????24817??2017-11-27?14:56??EnglishChuLi\.idea\workspace.xm
?????文件?????????520??2017-11-25?20:27??EnglishChuLi\DeleteChar.py
?????文件?????????724??2017-11-25?20:28??EnglishChuLi\DeleteStop.py
?????文件????????1093??2017-11-21?14:42??EnglishChuLi\GetEnglishInformation.py
?????文件?????????706??2017-11-25?20:48??EnglishChuLi\Kbean.py
?????文件?????????732??2017-11-25?20:45??EnglishChuLi\PCA.py
?????文件????????1753??2017-11-25?20:31??EnglishChuLi\similary.py
?????文件?????????836??2017-11-25?20:29??EnglishChuLi\SnowballStemmer.py
評論
共有 條評論