資源簡介
針對(duì)K-means算法因隨機(jī)選取聚類中心而易造成聚類結(jié)果不穩(wěn)定的問題,提出PCA-KDKM算法。該算法使用主成分分析法對(duì)數(shù)據(jù)集的屬性降維,提取主屬性;利用k′dist曲線自動(dòng)獲取k值;計(jì)算平緩曲線上所含數(shù)據(jù)對(duì)象的均值并選取其中一值,作為首個(gè)初始聚類中心;利用基于密度和最大最小距離的算法思想進(jìn)行聚類;結(jié)合類間距離和類內(nèi)聚類提出聚類質(zhì)量評(píng)價(jià)函數(shù)。將該算法與K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI數(shù)據(jù)集上進(jìn)行聚類比較,結(jié)果表明該算法聚類結(jié)果穩(wěn)定,聚類準(zhǔn)確率高。將PCA-KDKM算法應(yīng)用在微博輿情分析中,抓取不同類別的數(shù)萬條數(shù)據(jù)進(jìn)行聚類分析。實(shí)驗(yàn)結(jié)果表明,PCA-KDKM
代碼片段和文件信息
評(píng)論
共有 條評(píng)論