-
大小: 5KB文件類型: .rar金幣: 2下載: 0 次發布日期: 2024-02-01
- 語言: 其他
- 標簽:
資源簡介
在使用StanfordCoreNLP對文本句子進行分析時,需要先對句子進行分詞
nlp.word_tokenize(sentence)
然后對分詞后的句子進行句子成分分析
nlp.pos_tag(sentence)
然后繼續進行命名實體識別
nlp.ner(sentence)
再之后就是句法分析與依存句法分析
nlp.parse(sentence)
nlp.dependency_parse(sentence)

代碼片段和文件信息
#?-*-?coding:?utf-8?-*-
“““
Created?on?Wed?Apr?17?23:16:12?2019
@author:?Dell
“““
#segmentor?=?Segmentor()
#segmentor.load(“/path/to/your/cws/model“)
#words?=?segmentor.segment(“元芳你怎么看“)
#print(words)
#print(“|“.join(words))
#segmentor.release()
from?pyltp?import?SentenceSplitter
from?pyltp?import?Segmentor
from?pyltp?import?Postagger
from?pyltp?import?SementicRoleLabeller
from?pyltp?import?NamedEntityRecognizer
from?pyltp?import?Parser
import?os
LTP_DATA_DIR?=?‘E:/自然語言處理/MYltp/ltp_data‘??#?ltp模型目錄的路徑
cws_model_path?=?os.path.join(LTP_DATA_DIR?‘cws.model‘)??#?分詞模型路徑,模型名稱為‘cws.model‘
segmentor?=?Segmentor()??#?初始化實例
segmentor.load(cws_model_path)??#?加載模型
#sentence?=?open(‘E:/自然語言處理/實驗四/chinese_sen.txt‘)
words?=?segmentor.segment(‘學歷造假風波一月后,翟天臨與辛芷蕾牽手回家。武磊替補登場,梅西獨中兩元助巴薩2:0戰勝西班牙人。漫威影業官方微博宣布《復仇者聯盟4》正式定檔4月24日在內地上映。3月29日下午,呼聲極高的人工智能專業被列入新增審批本科專業名單,全國共有35所高校獲首批建設資格。ACM宣布,深度學習的三位創造者Yoshua?Bengio,Yann?LeCun,以及Geoffrey?Hinton獲得了2019年的圖靈獎。‘)??#?分詞
#print(‘\t‘.join(words))
segmentor.release()??#?釋放模型
pos_model_path?=?os.path.join(LTP_DATA_DIR?‘pos.model‘)??#?詞性標注模型路徑,模型名稱為‘pos.model‘
postagger?=?Postagger()?#?初始化實例
postagger.load(pos_model_path)??#?加載模型
postags?=?postagger.postag(words)??#?詞性標注
#print?(‘\t‘.join(postags))
postagger.release()??#?釋放模型
par_model_path?=?os.path.join(LTP_DATA_DIR?‘parser.model‘)#?依存句法分析模型路徑,模型名稱為‘parser.model‘
parser?=?Parser()#?初始化實例
parser.load(par_model_path)#?加載模型
arcs?=?parser.parse(words?postags)#?句法分析#信息提取,結果展示
rely_id?=?[arc.head?for?arc?in?arcs]#?提取依存父節點
idrelation?=?[arc.relation?for?arc?in?arcs]#?提取依存關系
heads?=?[‘Root‘?if?id?==0?else?words[id-1]for?id?in?rely_id]#?匹配依存父節點詞語
for?i?in?range(len(words)):
????print(relation[i]?+‘(‘?+?words[i]?+‘?‘?+?heads[i]?+‘)‘)
parser.release()#?釋放模型
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件???????2390??2019-04-21?20:34??pyltpTest.py
?????文件??????????0??2019-04-16?10:33??StandFordChinese.txt
?????文件????????851??2019-04-16?22:27??StanFordEnglish.txt
?????文件???????6320??2019-03-31?16:59??常用的標注指代.txt
?????文件????????361??2019-03-31?16:59??chinese_sen.txt
?????文件????????188??2019-03-31?17:13??english_sen.txt
?????文件??????????0??2019-04-16?10:34??otherNlp.txt
-----------?---------??----------?-----??----
????????????????10110????????????????????7
評論
共有 條評論