新聞自動分類部分代碼

大小: 25KB

文件類型: .zip

金幣: 2

下載: 0 次

發布日期: 2021-05-12
語言: 其他
標簽:

高速下載

資源簡介

簡書代碼

資源截圖

小圖大圖

代碼片段和文件信息

#進行文檔分類（應用版）
from?matplotlib?import?pyplot??
import?scipy?as?sp??
import?numpy?as?np
import?os
from?sklearn?import?datasets
from?sklearn.datasets?import?load_files

from?sklearn.cross_validation?import?train_test_split??
from?sklearn.feature_extraction.text?import??CountVectorizer??
from?sklearn.feature_extraction.text?import??TfidfVectorizer

from?sklearn.feature_extraction.text?import?TfidfTransformer
from?sklearn.naive_bayes?import?MultinomialNB

from?sklearn.metrics?import?precision_recall_curve??
from?sklearn.metrics?import?classification_report

#計算指定目錄下含有的文件個數
path1?=?“D:\\phpspider-master\\OperationMySQL\\operation1“
path2?=?“D:\\phpspider-master\\OperationMySQL\\mainoperation“
ls1?=?os.listdir（path1）
ls2?=?os.listdir（path2）
count1?=?0
count2?=?0
for?i?in?ls1:
????if?os.path.isfile（os.path.join（path1i））:
????????count1?+=?1
for?j?in?ls2:
????if?os.path.isfile（os.path.join（path2j））:
????????count2?+=?1
????????
twenty_train?=?load_files（“D:/phpspider-master/OperationMySQL/result4“）

vectorizer=CountVectorizer（decode_error?=?‘ignore‘）#該類用于將文本中的詞語轉換為詞頻矩陣，矩陣元素a[i][j]?表示j詞在i類文本下的詞頻??
transformer=TfidfTransformer（）#該類用于統計每個詞語的tf-idf權值
tfidf=transformer.fit_transform（vectorizer.fit_transform（twenty_train.data））#第一個fit_transform是計算tf-idf，第二個fit_transform是將文本轉為詞頻矩陣


#調用MultinomialNB分類器??
clf?=?MultinomialNB（）.fit（tfidftwenty_train.target）

#?對新的樣本進行預測
for?i?in?range（count2+1count1+1）:
????????f=open（“D:\\phpspider-master\\OperationMySQL\\operation5\\%d.txt“?%?（i）“r“encoding=‘utf-8‘）?#讀取文本
????????p?=?f.read（）?????
????????docs_new=[]
????????docs_new.append（p）
????????X_new_counts?=?vectorizer.transform（docs_new）

????????X_new_tfidf?=?transformer.transform（X_new_counts）

????????predicted?=?clf.predict（X_new_tfidf）#預測輸入內容的類別
????????for?doccategory?in?zip（docs_newpredicted）:
????????????print（twenty_train.target_names[category]）
????????????‘‘‘
????????????if（（twenty_train.target_names[category]）==?‘1‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《財經》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘2‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《IT》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘3‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《健康》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘4‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《體育》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘5‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《旅游》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘6‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《教育》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘7‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《招聘》---類文章“）
????????????elif（（twenty_train.target_names[category]）==?‘8‘）:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《文化》---類文章“）
????????????else:
????????????????print（“呵呵，如果我猜的沒錯剛才我讀了一篇---《軍事》---類文章“）
????????????
??

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????????7445??2017-05-19?13:44??相關代碼\Most_powerful.py
?????文件????????3698??2017-05-19?10:33??相關代碼\collect.py
?????文件????????4805??2017-05-26?18:58??相關代碼\operation.php
?????文件?????????314??2017-05-18?10:01??相關代碼\operationtemp.php
?????文件????????1850??2017-05-18?22:37??相關代碼\similarity_calculation.py
?????文件???????77144??2017-05-06?09:13??相關代碼\stopword.txt
?????目錄???????????0??2017-07-06?11:56??相關代碼\

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

新聞自動分類部分代碼

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源