資源簡介
最大概率分詞算法,帶詳細(xì)源碼
基于最大概率的漢語切分
目標(biāo):采用最大概率法進(jìn)行漢語切分。
其中:n-gram用bigram,平滑方法至少用Laplace平滑。
輸入:接收一個(gè)文本,文本名稱為:corpus_for_test.txt
輸出:切分結(jié)果文本,
其中:切分表示:用一個(gè)字節(jié)的空格“ ”分隔,如:我們 在 學(xué)習(xí) 。
每個(gè)標(biāo)點(diǎn)符號都單算一個(gè)切分單元。
輸出文件名為:學(xué)號.txt
代碼片段和文件信息
評論
共有 條評論