91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 19.9MB
    文件類型: .zip
    金幣: 1
    下載: 0 次
    發(fā)布日期: 2023-06-20
  • 語言: Python
  • 標(biāo)簽: 最大熵??文本分類??

資源簡介

最大熵模型用于文本分類的例子,里面有數(shù)據(jù)集和Python代碼

資源截圖

代碼片段和文件信息

#?-*-?coding:?cp936?-*-
‘‘‘
注意當(dāng)測(cè)試集,訓(xùn)練集不大時(shí),在測(cè)試集中出現(xiàn)的單詞在訓(xùn)練集中有可能不存在,這種情況直接忽略這個(gè)詞的判斷。
‘‘‘
import?os
import?random

textNum?=?0
wordNum?=?0
ctgyNum?=?0
weight?=?[[0?for?x?in?range(ctgyNum)]?for?y?in?range(wordNum)]
category?=?[‘finance‘‘local‘‘computer‘‘house‘‘edu‘‘tech‘‘car‘‘talent‘‘sport‘‘healthy‘‘a(chǎn)rtist‘‘fun‘]
words?=?set([])


def?process(inPathoutPathctgyfileNameisTrainData):
????text=open(inPath+‘\\‘+fileName)
????lines?=?text.readlines()
????wf?=?{}
????cnt?=?0
????for?line?in?lines:
????????arr?=?line.split()
????????for?w?in?arr:
????????????w?=?w.strip()
????????????if?wf.has_key(w):
????????????????wf[w]+=1
????????????else:
????????????????wf[w]?=?1
????????????cnt+=1
????????????if?isTrainData:?????????????#只收集訓(xùn)練集中的單詞
????????????????if?w?not?in?words:
????????????????????words.add(w)
????for?(kv)?in?wf.items():
????????wf[k]/=float(cnt)
????text2?=?open(outPath+‘\\‘+ctgy+fileName‘w‘)
????for?(kv)?in?wf.items():
????????text2.write(k+‘\t‘+str(v)+‘\n‘)
????text.close()
????text2.close()
????
def?wordFreq():
????print?“計(jì)算中,請(qǐng)稍后...“
????path?=?“TanCorp-12-Txt“
????trainPath?=“data\\train\\“
????testPath?=“data\\test\\“
????wordPath?=?“data\\words.txt“
????dirs?=?os.listdir(path)
????trainCnt?=?0
????testCnt?=?0
????for?ctgy?in?dirs:
????????currPath?=?path+‘\\‘+ctgy
????????files?=?os.listdir(currPath)
????????index?=?0???????????????????#為了減小計(jì)算量,每類別最多取200個(gè)數(shù)據(jù)
????????for?f?in?files:
????????????index+=1
????????????if?index>300?:?break
????????????if?random.random()>0.2:
????????????????process(currPathtrainPathctgyfTrue)
????????????????trainCnt+=1
????????????else?:
????????????????process(currPathtestPathctgyfFalse)
????????????????testCnt+=1????
????stat?=?open(wordPath‘w‘)
????for?word?in?words:
????????stat.write(word+‘\n‘)
????stat.close()
????print?“處理完畢:“
????print?“單詞總量“+str(len(words))
????print?“訓(xùn)練總量“+str(trainCnt)
????print?“測(cè)試總量“+str(testCnt)

if?__name__?==?‘__main__‘?:
????wordFreq()
???

?屬性????????????大小?????日期????時(shí)間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2015-05-08?12:36??maxEnt\
?????目錄???????????0??2015-05-07?19:38??maxEnt\data\
?????文件?????????504??2015-05-06?17:30??maxEnt\data\rename.py
?????目錄???????????0??2015-05-07?19:39??maxEnt\data\test\
?????文件????????5939??2015-05-07?19:38??maxEnt\data\test\ar7820.txt
?????文件????????5196??2015-05-07?19:38??maxEnt\data\test\ar7823.txt
?????文件???????10112??2015-05-07?19:38??maxEnt\data\test\ar7827.txt
?????文件????????7285??2015-05-07?19:38??maxEnt\data\test\ar7837.txt
?????文件????????2425??2015-05-07?19:38??maxEnt\data\test\ar7838.txt
?????文件????????8163??2015-05-07?19:38??maxEnt\data\test\ar7840.txt
?????文件?????????695??2015-05-07?19:38??maxEnt\data\test\ar7842.txt
?????文件????????4034??2015-05-07?19:38??maxEnt\data\test\ar7846.txt
?????文件???????21443??2015-05-07?19:38??maxEnt\data\test\ar7850.txt
?????文件????????7698??2015-05-07?19:38??maxEnt\data\test\ar7853.txt
?????文件????????3808??2015-05-07?19:38??maxEnt\data\test\ar7855.txt
?????文件????????2568??2015-05-07?19:38??maxEnt\data\test\ar7864.txt
?????文件????????2217??2015-05-07?19:38??maxEnt\data\test\ar7868.txt
?????文件????????3859??2015-05-07?19:38??maxEnt\data\test\ar7869.txt
?????文件????????3559??2015-05-07?19:38??maxEnt\data\test\ar7871.txt
?????文件???????10122??2015-05-07?19:38??maxEnt\data\test\ar7872.txt
?????文件????????9354??2015-05-07?19:38??maxEnt\data\test\ar7880.txt
?????文件????????2191??2015-05-07?19:38??maxEnt\data\test\ar7881.txt
?????文件????????7808??2015-05-07?19:38??maxEnt\data\test\ar7885.txt
?????文件????????6124??2015-05-07?19:38??maxEnt\data\test\ar7900.txt
?????文件???????13448??2015-05-07?19:38??maxEnt\data\test\ar7904.txt
?????文件???????13660??2015-05-07?19:38??maxEnt\data\test\ar7907.txt
?????文件???????12541??2015-05-07?19:38??maxEnt\data\test\ar7912.txt
?????文件????????6455??2015-05-07?19:38??maxEnt\data\test\ar7921.txt
?????文件???????10015??2015-05-07?19:38??maxEnt\data\test\ar7928.txt
?????文件???????15559??2015-05-07?19:38??maxEnt\data\test\ar7932.txt
?????文件????????6473??2015-05-07?19:38??maxEnt\data\test\ar7936.txt
............此處省略17591個(gè)文件信息

評(píng)論

共有 條評(píng)論