資源簡介
針對中文短文本篇幅較短、特征稀疏性等特征,提出了一種基于隱含狄利克雷分布模型的特征擴展的短文本分類方法。在短文本原始特征的基礎上,利用 LDA 主題模型對短文本進行預測,得到對應的主題分布,把主題中的詞作為短文本的部分特征,并擴充到原短文本的特征中去,最后利用 SVM 分類方法進行短文本的分類。實驗表
明,該方法在性能上與傳統的直接使用 VSM 模型來表示短文本特征的方法相比,對不同類別的短文本進行分類,都有不同程度的提高與改進,對于短文本進行補充 LDA 特征信息的方法是切實可行的。
明,該方法在性能上與傳統的直接使用 VSM 模型來表示短文本特征的方法相比,對不同類別的短文本進行分類,都有不同程度的提高與改進,對于短文本進行補充 LDA 特征信息的方法是切實可行的。
代碼片段和文件信息
評論
共有 條評論