資源簡介
問題發現:
本次案例為工作中遇到的實際問題,在語音識別中的語料準備部分,需要從網絡中爬取相當數量的相關文本,其中發現爬取到了一些不相關的內容,如何把這些不相關的內容剔除掉成為筆者需要思考的問題。
初步思考:
遇到此問題筆者第一時間考慮是將文本分詞后向量化,使用聚類看一下分布情況,然而發現在不同訓練集中,訓練樣本變化時,向量隨之變化,在測試集中表現一般,在實測中幾乎無用。于是想到向量化的方法問題,使用sklearn CountVectorizer方法進行向量化,僅僅是將所有詞頻無序的向量化,看到另外博文時,發現應該先將目標主題的文本進行詞頻統計,將統計結果當做向量化模板,實測發現效果不錯,現將此方法分享給大家

代碼片段和文件信息
€csklearn.naive_bayes
GaussianNB
q