資源簡介
最大匹配法分詞Python,文檔,代碼齊全。注釋齊全。輸入為人民日報標準語料庫。10分絕對不虧。

代碼片段和文件信息
#?-*-?coding:?cp936?-*-
#最大匹配法進行分詞----創建詞表文件.
#author?徐能
#date?2013/3/23
import?string
import?re
#輸入:語料庫199801.txt文件;?輸出:換行分割后的詞表文件dict.txt(已經去重復?去日期)
def?create_dict(filename):
print(“讀取文件......“)
src_data?=?open(filename‘r‘).read()
sp_data?=?src_data.split()#分割
print(“原始詞數為:“len(sp_data))
set_data?=?set(sp_data) #去重復
data?=?list(set_data)?#set轉換成list?否則不能索引
print(“去除重復后總詞數為:“len(data))
print(“正在建立詞表文件......“)
tmp?=?[]
for?i?in?range(0len(data)):
if?re.compile(r‘\d+\-\S+‘).match(data[i]):??#去除類似這樣的詞‘19980101-01-001-002/m‘
continue
else:
p_ok_data?=?re.compile(r‘\/\w+‘).sub(‘\n‘data[i])?#將類似的詞‘埃特納/ns‘替換為‘埃特納‘
if?re.compile(r‘(\[\S+)|(\]\S+)‘).match(p_ok_data):????#找到以‘[‘或‘]‘開頭的詞
ok_data?=?re.compile(r‘(\]\w+\[)|(\])|(\[)‘).sub(‘‘p_ok_data)?#去除‘]nt[澳門‘‘]澳門‘‘[澳門‘三類詞的頭部無用部分(先匹配長的部分)
tmp.append(ok_data)
continue
tmp.append(p_ok_data)
print(“最終得到的詞表文件中總詞數為:“len(tmp))
open(‘dict_tmp.txt‘‘w‘).writelines(tmp)
print(“初步詞表文件建立完成!?(dict_tmp.txt)“)
#運行
if?__name__?==?‘__main__‘:
????create_dict(‘199801.txt‘)
##????create_dict(‘testdict1.txt‘)
##????create_dict(‘testdict2.txt‘)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2013-03-25?22:09??中文信息處理作業_徐能_2010241060\
?????目錄???????????0??2013-03-25?22:10??中文信息處理作業_徐能_2010241060\文檔\
?????文件??????103936??2013-03-25?22:00??中文信息處理作業_徐能_2010241060\文檔\最大匹配法分詞算法分析與說明.doc
?????目錄???????????0??2013-03-25?22:13??中文信息處理作業_徐能_2010241060\源碼\
?????文件?????8830154??2000-12-15?17:03??中文信息處理作業_徐能_2010241060\源碼\199801.txt
?????文件??????398406??2013-03-25?22:12??中文信息處理作業_徐能_2010241060\源碼\dict.txt
?????文件????????1351??2013-03-25?21:38??中文信息處理作業_徐能_2010241060\源碼\MaxBuildDict.py
?????文件?????????893??2013-03-25?21:41??中文信息處理作業_徐能_2010241060\源碼\MaxBuildDictModify.py
?????文件????????1799??2013-03-25?21:28??中文信息處理作業_徐能_2010241060\源碼\MaxWordSegmentation.py
?????文件?????????472??2013-03-25?22:35??中文信息處理作業_徐能_2010241060\源碼\MaxWordSegmentationTest.py
?????文件???????????0??2013-03-17?19:22??中文信息處理作業_徐能_2010241060\源碼\__init__.py
?????目錄???????????0??2013-03-25?22:09??中文信息處理作業_徐能_2010241060\源碼\__pycache__\
?????文件????????2003??2013-03-25?22:06??中文信息處理作業_徐能_2010241060\源碼\__pycache__\MaxWordSegmentation.cpython-33.pyc
?????文件????????1875??2013-03-22?21:46??中文信息處理作業_徐能_2010241060\源碼\__pycache__\other.cpython-33.pyc
?????文件?????????146??2013-03-24?20:11??中文信息處理作業_徐能_2010241060\源碼\__pycache__\__init__.cpython-33.pyc
?????文件?????????913??2013-03-25?22:11??中文信息處理作業_徐能_2010241060\源碼\源碼運行說明.txt
評論
共有 條評論