91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 1.85MB
    文件類型: .zip
    金幣: 2
    下載: 0 次
    發布日期: 2023-11-07
  • 語言: 其他
  • 標簽: 文本分類??

資源簡介

TextClassify文本分類系統適用于中文,英文文本分類。 包括各個文本的關鍵詞輸出,可以控制關鍵詞輸出個數,也可以對關鍵詞加入黑名單和白名單。 關于TextClassify文本分類系統的改進: 改進jieba中文分詞詞典 改進黑名單:增加停用詞 改進白名單:增加專業詞 在TextProcess改進每一類text至多選FileInFolder個:理論上越多越好 deleteN的選取:可以優化 特征詞的長度限定:unicode不過長,不過短 特征詞詞典dict_size的選取:可以優化 特征的改進 多分類結合的算法改進

資源截圖

代碼片段和文件信息

__author__?=?‘LiNing‘??
#coding:?utf-8
import?os
import?sys
import?time
from?sys?import?exit
from?os?import?listdir
from?os?import?makedirs
from?os?import?remove
from?os.path?import?isdir
from?os.path?import?exists
from?os.path?import?join
from?os.path?import?split
from?shutil?import?copy
from?shutil?import?rmtree
from?sklearn?import?metrics
import?numpy?as?np
import?pylab?as?pl
import?nltk
import?math

from?TextProcess?import?TextRmSame
from?TextProcess?import?TextRename
from?TextProcess?import?MakeStopWordsList
from?TextProcess?import?TextProcessing
from?TextProcess?import?MakeAllWordsList
from?TextProcess?import?MakeFeatureWordsDict

from?TextFeature?import?TextBool
from?TextFeature?import?ComputeTf
from?TextFeature?import?ComputeTfIdf
from?TextFeature?import?ExtractTags

from?TextClassify?import?TextClassifier
from?TextClassify?import?TextClassifier_nltk
from?TextClassify?import?Vote

from?TextEvaluation?import?calculate_result

##import?scipy.io?as?sio
##sio.savemat(‘file.mat‘?dict)
##data?=?sio.loadmat(‘file.mat‘)



if?__name__?==?‘__main__‘:
????##參數設定
????lag?=?“chs“?#chs?or?eng??
????Test?=?“False“?#True?or?False
????GenerateLogs?=?“False“?#True?or?False
????GenerateKeywords?=?“False“?#True?or?False
????GenerateFolders?=?“True“?#True?or?False?

????
????##生成results.log文件
????if?GenerateLogs?==?“True“:
#sys.stdout?=?open(‘results.log‘?‘a‘)?#追加模式
sys.stdout?=?open(‘results.log‘?‘wb‘)????
pass
????
????starttime?=?time.clock()?#開始時間
????print?“start“
????
????
????##訓練文本預處理
????##Wing?IDE沒有輸入參數,所以才會出現list?index?out?of?range
????##raw_train_container_path?=?sys.argv[1]?#datas\\train_raw
????#train_container_path?=?sys.argv[1]?#datas\\train?
????#test_container_path?=?sys.argv[2]?#datas\\test?or?datas\\unknown?
????#訓練集
????raw_train_container_path?=?“datas\\train_raw“
????train_container_path?=?“datas\\train“?
????#中斷程序條件運行
????(a?b)?=?split(train_container_path)
????error_files_path?=?join(a?“errorfiles“) ????
????if?exists(error_files_path):
rmtree(error_files_path)?
????else:
TextRmSame(raw_train_container_path?train_container_path)?#remove?the?same?files
#TextRename(raw_train_container_path?train_container_path)?#rename?the?filename
pass
????#測試集
????if?Test?==?“True“:
test_container_path?=?“datas\\test“
????else:
test_container_path?=?“datas\\unknown“
????#停用詞
????stopwords_file?=?“stopwords.txt“
????stopwords_list?=?MakeStopWordsList(stopwords_file)

????
????##文本信息提取,若生成errorfiles文件夾則需重新運TextProcessing
????##(train_data?train_filenames?train_target?train_target_names)?=?TextProcessing(train_container_path?lag?‘True‘?stopwords_list)?
????(train_data?train_filenames?train_target?train_target_names)?=?TextProcessing(train_container_path?lag?‘True‘)?
????if?Test?==?“True“:
##(test_data?test_filenames?test_target?test_target_names)?=?TextProcessing(test_container_path?lag?‘True‘?stopwords_list)?
(test_data?te

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件?????5420898??2014-05-12?14:08??文本分類系統\jieba_dict.txt
?????文件???????10701??2014-06-17?10:47??文本分類系統\Main.py
?????文件????????9839??2014-06-13?15:44??文本分類系統\stopwords.txt
?????文件????????3398??2014-06-16?16:00??文本分類系統\TextClassify.pyc
?????文件?????????867??2014-06-16?16:00??文本分類系統\TextEvaluation.pyc
?????文件????????2564??2014-06-16?16:00??文本分類系統\TextFeature.pyc
?????文件????????6895??2014-06-17?10:24??文本分類系統\TextProcess.pyc

評論

共有 條評論