資源簡介
3種中文分詞方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三種方法輸入,glove向量,Word2vec向量,還有將字映射成整數(shù)再通過embedding層映射成字向量作為輸入。還包含中文分詞的評分腳本。
代碼片段和文件信息
#!/usr/bin/env?python
#?-*-?coding:?utf-8?-*-
#?Author:?52nlpcn@gmail.com
#?Copyright?2014?@?YuZhen?Technology
#
#?4?tags?for?character?tagging:?B(Begin)?E(End)?M(Middle)?S(Single)
import?codecs
import?sys
def?character_2_word(input_file?output_file):
????input_data?=?codecs.open(input_file?‘r‘?‘utf-8‘)
????output_data?=?codecs.open(output_file?‘w‘?‘utf-8‘)
????i=0
????for?line?in?input_data.readlines():
????????if?line?==?“\n“?or?line.strip()==‘‘:
????????????output_data.write(“\n“)
????????else:
????????????char_tag_pair?=?line.strip().split(‘\t‘)
????????????char?=?char_tag_pair[0]
????????????tag?=?char_tag_pair[2]
????????????if?tag?==?‘B‘:
????????????????output_data.write(‘?‘?+?char)
????????????elif?tag?==?‘M‘:
????????????????output_data.write(char)
????????????elif?tag?==?‘E‘:
????????????????output_data.write(char?+?‘?‘)
????????????else:?#?tag?==?‘S‘
????????????????output_data.write(‘?‘?+?char?+?‘?‘)
????input_data.close()
????output_data.close()
input_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segment.txt‘
output_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segmentresult.txt‘
if?__name__?==?‘__main__‘:
????character_2_word(input_file?output_file)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件???????1259??2018-06-07?10:29??中文分詞\CRF++\crf_data_2_word.py
?????文件??????50688??2013-02-12?23:40??中文分詞\CRF++\crf_learn.exe
?????文件??????50688??2013-02-12?23:40??中文分詞\CRF++\crf_test.exe
?????文件?????337408??2013-02-12?23:40??中文分詞\CRF++\libcrfpp.dll
?????文件????????890??2018-06-06?20:13??中文分詞\CRF++\make_crf_test_data.py
?????文件???????1141??2018-06-06?20:47??中文分詞\CRF++\make_crf_train_data.py
?????文件??????69592??2018-06-18?14:22??中文分詞\CRF++\read?me.docx
?????文件????????238??2018-06-04?16:56??中文分詞\CRF++\template
?????文件????????569??2018-06-14?14:17??中文分詞\glove向量作為lstm中文分詞輸入\bi_lstm_model.py
?????文件????????262??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\.gitignore
?????文件???????1695??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\demo.sh
?????文件???????3419??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\matlab\evaluate_vectors.m
?????文件????????812??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\matlab\read_and_evaluate.m
?????文件????????204??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\matlab\WordLookup.m
?????文件???????3455??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\octave\evaluate_vectors_octave.m
?????文件????????833??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\octave\read_and_evaluate_octave.m
?????文件????????214??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\octave\WordLookup_octave.m
?????文件???????4307??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\python\evaluate.py
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._capital-common-countries.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._capital-world.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._city-in-state.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._currency.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._family.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram1-adjective-to-adverb.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram2-opposite.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram3-comparative.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram4-superlative.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram5-present-participle.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram6-nationality-adjective.txt
?????文件????????212??2015-10-25?00:52??中文分詞\glove向量作為lstm中文分詞輸入\GloVe-1.2\eval\question-data\._gram7-past-tense.txt
............此處省略59個文件信息
評論
共有 條評論