91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

資源簡(jiǎn)介

這份代碼是我們專(zhuān)業(yè)的一個(gè)實(shí)驗(yàn),內(nèi)容包含了文本分詞和文本分類(lèi)。分別使用了正向最大匹配算法和KNN算法。分詞速度平均153295詞/秒,189100字符/秒。文本分類(lèi)使用tf-idf計(jì)算單詞權(quán)重進(jìn)行特征選擇,我測(cè)試時(shí)選擇前100個(gè)特征詞,根據(jù)k的不同取值,分類(lèi)的準(zhǔn)確度平均為75%。

資源截圖

代碼片段和文件信息

‘‘‘
2019/5/12
by?zhyjc
##?encoding?=?‘gb18030‘errors?=?‘ignore‘
‘‘‘
import?os
import?time
import?math


class?Trie_tree(object):
????????#定義一個(gè)字典樹(shù)的類(lèi),用于正向最大匹配時(shí)對(duì)文本分詞
????def?__init__(self):
????????self.root?=?{}
????????self.word_end?=?-1

????def?tree_build(self?dict_path):
????????f_dic?=?open(dict_path‘r‘encoding?=?‘utf-8‘)????#詞典
????????strs?=?f_dic.readlines()
????????for?word?in?strs:
????????????word?=?word.strip(‘?\n‘)
????????????self.insert(word)
????????print(‘字典樹(shù)建立完成!\n‘)
????????return?self????????
????
????def?insert(selfword):
????????cur_node?=?self.root
????????for?char?in?word:
????????????if?not?char?in?cur_node:
????????????????cur_node[char]?=?{}
????????????cur_node?=?cur_node[char]
????????cur_node[self.word_end]?=?True
????
????d

評(píng)論

共有 條評(píng)論