自然語言處理之文本主題判別

大小: 2.71MB

文件類型: .zip

金幣: 2

下載: 0 次

發布日期: 2023-11-18
語言: 其他
標簽: svm??文本分類??

高速下載

資源簡介

問題發現：本次案例為工作中遇到的實際問題，在語音識別中的語料準備部分，需要從網絡中爬取相當數量的相關文本，其中發現爬取到了一些不相關的內容，如何把這些不相關的內容剔除掉成為筆者需要思考的問題。初步思考：遇到此問題筆者第一時間考慮是將文本分詞后向量化，使用聚類看一下分布情況，然而發現在不同訓練集中，訓練樣本變化時，向量隨之變化，在測試集中表現一般，在實測中幾乎無用。于是想到向量化的方法問題，使用sklearn CountVectorizer方法進行向量化，僅僅是將所有詞頻無序的向量化，看到另外博文時，發現應該先將目標主題的文本進行詞頻統計，將統計結果當做向量化模板，實測發現效果不錯，現將此方法分享給大家

資源截圖

小圖大圖

代碼片段和文件信息

€csklearn.naive_bayes
GaussianNB
q

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91av视频

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

自然語言處理之文本主題判別

資源簡介

資源截圖

代碼片段和文件信息