微博情感傾向性分析

大小: 1.52MB

文件類型: .rar

金幣: 2

下載: 0 次

發布日期: 2023-12-26
語言: 其他
標簽: 傾向性??

高速下載

資源簡介

微博情感傾向性分析，自己做的作業，代碼已調通，可用。

資源截圖

小圖大圖

代碼片段和文件信息

#?_*_?coding:?utf-8?_*_

#好評good.txt（1列）和壞評bad.txt（1列）停用詞stop.txt（1列）

#獲取文本字符串
import?nltk

from?nltk.collocations?import??BigramCollocationFinder

from?nltk.metrics?import??BigramAssocMeasures

#安裝結巴，進入D:\software\Python\Python35\scripts，執行pip3?install?jieba即可；卸載使用pip3??uninstall?jieba即可

import?jieba


def?text（）:

?????f1?=?open（‘d:/positive.txt‘‘r‘encoding=‘utf-8‘）

?????f2?=?open（‘d:/negative.txt‘‘r‘encoding=‘utf-8‘）

?????line1?=?f1.readline（）

?????line2?=?f2.readline（）

?????str?=?‘‘

?????while?line1:

?????????str?+=?line1

?????????line1?=?f1.readline（）

?????while?line2:

?????????str?+=?line2

?????????line2?=?f2.readline（）

?????f1.close（）

?????f2.close（）

?????return?str

#返回分詞列表如：[[‘我‘‘愛‘‘北京‘‘天安門‘][‘你‘‘好‘][‘hello‘]]，一條評論一個
import?os
import?codecs
def?read_file（filename）:

#???with?codecs.open（‘d:/stop.txt‘‘r‘‘utf-8‘）?as?rf:
#???????with?open（）
?????stop?=?[line.strip（）?for?line?in??codecs.open（‘d:/stop.txt‘‘r‘‘utf-8‘）.readlines（）]#停用詞

?????f?=?codecs.open（filename‘r‘‘utf-8‘）

?????line?=?f.readline（）

?????str?=?[]

?????while?line:

?????????s?=?line.split（‘\t‘）

?????????fenci?=?jieba.cut（s[0]cut_all=False）#False默認值：精準模式

?????????str.append（list（set（fenci）-set（stop）））

?????????line?=?f.readline（）

?????return?str


#安裝nltk，進入D:\software\Python\Python35\scripts，執行pip3?install??nltk即可

from?nltk.probability?import??FreqDistConditionalFreqDist

from?nltk.metrics?import??BigramAssocMeasures


#獲取信息量最高（前number個）的特征（卡方統計）

def?jieba_feature（number）:

?????posWords?=?[]

?????negWords?=?[]

?????for?items?in?read_file（‘d:/positive.txt‘）:#把集合的集合變成集合

?????????for?item?in?items:

????????????posWords.append（item）

?????for?items?in?read_file（‘d:/negative.txt‘）:

?????????for?item?in?items:

????????????negWords.append（item）


?????word_fd?=?FreqDist（）?#可統計所有詞的詞頻

?????cond_word_fd?=?ConditionalFreqDist（）?#可統計積極文本中的詞頻和消極文本中的詞頻

?????for?word?in?posWords:

?????????word_fd[word]?+=?1

?????????cond_word_fd[‘pos‘][word]?+=?1

?????for?word?in?negWords:

?????????word_fd[word]?+=?1

?????????cond_word_fd[‘neg‘][word]?+=?1


?????pos_word_count?=?cond_word_fd[‘pos‘].N（）?#積極詞的數量

?????neg_word_count?=?cond_word_fd[‘neg‘].N（）?#消極詞的數量

?????total_word_count?=?pos_word_count?+?neg_word_count


?????word_scores?=?{}#包括了每個詞和這個詞的信息量

?????for?word?freq?in?word_fd.items（）:

?????????pos_score?=?BigramAssocMeasures.chi_sq（cond_word_fd[‘pos‘][word]??（freq?pos_word_count）?total_word_count）?#計算積極詞的卡方統計量，這里也可以計算互信息等其它統計量

?????????neg_score?=?BigramAssocMeasures.chi_sq（cond_word_fd[‘neg‘][word]??（freq?neg_word_count）?total_word_count）?#同理

?????????word_scores[word]?=?pos_score?+?neg_score?#一個詞的信息量等于積極卡方統計量加上消極卡方統計量


?????best_vals?=?sorted（word_scores.items（）?key=lambda?item:item[1]??reverse=True）[:number]?#把詞按信息量倒序排序。number是特征的維度，是可以不斷調整直至最優的

?????best_words?=?set（[w?for?ws?in?best

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----

?????文件???????7057??2017-05-14?14:06??微博情感傾向性分析\代碼\emotion.py

?????文件?????????65??2017-05-15?15:32??微博情感傾向性分析\代碼\readme.txt

?????文件???????6099??2017-05-13?12:06??微博情感傾向性分析\代碼\senti_python.py

?????文件????2027971??2017-05-13?16:58??微博情感傾向性分析\數據集\negative.txt

?????文件????1810399??2017-05-13?16:47??微博情感傾向性分析\數據集\positive.txt

?????文件??????15183??2016-10-24?18:26??微博情感傾向性分析\數據集\stop.txt

?????目錄??????????0??2017-05-15?15:52??微博情感傾向性分析\代碼

?????目錄??????????0??2017-05-15?15:52??微博情感傾向性分析\數據集

?????目錄??????????0??2017-11-13?14:56??微博情感傾向性分析

-----------?---------??----------?-----??----

??????????????3866774????????????????????9

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

微博情感傾向性分析

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源