資源簡介
針對短文本特征稀疏、噪聲大等特點,提出一種基于 LDA 高頻詞擴展的方法,通過抽取每個類別的高頻詞作為向量空間模型的特征空間,用 TF-IDF 方法將短文本表示成向量,再利用 LDA 得到每個文本的隱主題特征,將
概率大于某一閾值的隱主題對應的高頻詞擴展到文本中,以降低短文本的噪聲和稀疏性影響。實驗證明,這種方法的分類性能高于常規分類方法
概率大于某一閾值的隱主題對應的高頻詞擴展到文本中,以降低短文本的噪聲和稀疏性影響。實驗證明,這種方法的分類性能高于常規分類方法
代碼片段和文件信息
評論
共有 條評論