資源簡介
中文自動分詞
1. 使用任意分詞方法實現漢語自動分詞;
2. 給出至少1000個句子的分詞結果(以附件形式);
3. 計算出分詞結果的正確率,并給出計算依據;
4. 用實例說明所用分詞方法分別對“交叉歧義”和“組合歧義”的處理能力;
5. 提交實驗報告,給出詳細實驗過程和結果;提交源代碼和可執行程序。

代碼片段和文件信息
#?-*-?coding:?utf-8?-*-
import?jieba
import?codecs
with?open(‘input.txt‘?‘r‘)?as?f:
????for?line?in?f:
????????seg?=?jieba.cut(line.strip()?cut_all?=?False)
????????s=?‘?‘.join(seg)
????????m=list(s)
????????with?open(‘source.txt‘‘a+‘)as?f:
????????????for?word?in?m:
????????????????f.write(word.encode(‘utf-8‘))
????????????f.write(‘\n‘)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件??????55749??2018-05-19?23:21??中文信息處理-實驗二\1.txt
?????文件??????56251??2018-05-19?23:21??中文信息處理-實驗二\2.txt
?????文件??????32579??2018-05-19?23:21??中文信息處理-實驗二\source.txt
?????文件????????357??2018-05-24?15:18??中文信息處理-實驗二\work2.py
?????文件????????534??2018-05-19?23:21??中文信息處理-實驗二\work22.py
?????文件?????375808??2018-07-06?16:21??中文信息處理-實驗二\中文信息處理-實驗二.doc
?????目錄??????????0??2018-07-06?16:22??中文信息處理-實驗二
-----------?---------??----------?-----??----
???????????????521278????????????????????7
- 上一篇:Electron - 旋轉的小尾巴
- 下一篇:OpenStack平臺搭建
評論
共有 條評論