資源簡(jiǎn)介
這份代碼是我們專(zhuān)業(yè)的一個(gè)實(shí)驗(yàn),內(nèi)容包含了文本分詞和文本分類(lèi)。分別使用了正向最大匹配算法和KNN算法。分詞速度平均153295詞/秒,189100字符/秒。文本分類(lèi)使用tf-idf計(jì)算單詞權(quán)重進(jìn)行特征選擇,我測(cè)試時(shí)選擇前100個(gè)特征詞,根據(jù)k的不同取值,分類(lèi)的準(zhǔn)確度平均為75%。
代碼片段和文件信息
‘‘‘
2019/5/12
by?zhyjc
##?encoding?=?‘gb18030‘errors?=?‘ignore‘
‘‘‘
import?os
import?time
import?math
class?Trie_tree(object):
????????#定義一個(gè)字典樹(shù)的類(lèi),用于正向最大匹配時(shí)對(duì)文本分詞
????def?__init__(self):
????????self.root?=?{}
????????self.word_end?=?-1
????def?tree_build(self?dict_path):
????????f_dic?=?open(dict_path‘r‘encoding?=?‘utf-8‘)????#詞典
????????strs?=?f_dic.readlines()
????????for?word?in?strs:
????????????word?=?word.strip(‘?\n‘)
????????????self.insert(word)
????????print(‘字典樹(shù)建立完成!\n‘)
????????return?self????????
????
????def?insert(selfword):
????????cur_node?=?self.root
????????for?char?in?word:
????????????if?not?char?in?cur_node:
????????????????cur_node[char]?=?{}
????????????cur_node?=?cur_node[char]
????????cur_node[self.word_end]?=?True
????
????d
評(píng)論
共有 條評(píng)論