資源簡介
簡書代碼

代碼片段和文件信息
#進行文檔分類(應用版)
from?matplotlib?import?pyplot??
import?scipy?as?sp??
import?numpy?as?np
import?os
from?sklearn?import?datasets
from?sklearn.datasets?import?load_files
from?sklearn.cross_validation?import?train_test_split??
from?sklearn.feature_extraction.text?import??CountVectorizer??
from?sklearn.feature_extraction.text?import??TfidfVectorizer
from?sklearn.feature_extraction.text?import?TfidfTransformer
from?sklearn.naive_bayes?import?MultinomialNB
from?sklearn.metrics?import?precision_recall_curve??
from?sklearn.metrics?import?classification_report
#計算指定目錄下含有的文件個數
path1?=?“D:\\phpspider-master\\OperationMySQL\\operation1“
path2?=?“D:\\phpspider-master\\OperationMySQL\\mainoperation“
ls1?=?os.listdir(path1)
ls2?=?os.listdir(path2)
count1?=?0
count2?=?0
for?i?in?ls1:
????if?os.path.isfile(os.path.join(path1i)):
????????count1?+=?1
for?j?in?ls2:
????if?os.path.isfile(os.path.join(path2j)):
????????count2?+=?1
????????
twenty_train?=?load_files(“D:/phpspider-master/OperationMySQL/result4“)
vectorizer=CountVectorizer(decode_error?=?‘ignore‘)#該類用于將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j]?表示j詞在i類文本下的詞頻??
transformer=TfidfTransformer()#該類用于統計每個詞語的tf-idf權值
tfidf=transformer.fit_transform(vectorizer.fit_transform(twenty_train.data))#第一個fit_transform是計算tf-idf,第二個fit_transform是將文本轉為詞頻矩陣
#調用MultinomialNB分類器??
clf?=?MultinomialNB().fit(tfidftwenty_train.target)
#?對新的樣本進行預測
for?i?in?range(count2+1count1+1):
????????f=open(“D:\\phpspider-master\\OperationMySQL\\operation5\\%d.txt“?%?(i)“r“encoding=‘utf-8‘)?#讀取文本
????????p?=?f.read()?????
????????docs_new=[]
????????docs_new.append(p)
????????X_new_counts?=?vectorizer.transform(docs_new)
????????X_new_tfidf?=?transformer.transform(X_new_counts)
????????predicted?=?clf.predict(X_new_tfidf)#預測輸入內容的類別
????????for?doccategory?in?zip(docs_newpredicted):
????????????print(twenty_train.target_names[category])
????????????‘‘‘
????????????if((twenty_train.target_names[category])==?‘1‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《財經》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘2‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《IT》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘3‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《健康》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘4‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《體育》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘5‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《旅游》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘6‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《教育》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘7‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《招聘》---類文章“)
????????????elif((twenty_train.target_names[category])==?‘8‘):
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《文化》---類文章“)
????????????else:
????????????????print(“呵呵,如果我猜的沒錯剛才我讀了一篇---《軍事》---類文章“)
????????????
??
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????????7445??2017-05-19?13:44??相關代碼\Most_powerful.py
?????文件????????3698??2017-05-19?10:33??相關代碼\collect.py
?????文件????????4805??2017-05-26?18:58??相關代碼\operation.php
?????文件?????????314??2017-05-18?10:01??相關代碼\operationtemp.php
?????文件????????1850??2017-05-18?22:37??相關代碼\similarity_calculation.py
?????文件???????77144??2017-05-06?09:13??相關代碼\stopword.txt
?????目錄???????????0??2017-07-06?11:56??相關代碼\
- 上一篇:socket,多線程實現群聊
- 下一篇:銀行管理系統源代碼
評論
共有 條評論