資源簡介
C5.0是決策樹模型中的算法,79年由J R Quinlan發(fā)展,并提出了ID3算法,主要針對離散型屬性數(shù)據(jù),其后又不斷的改進,形成C4.5,它在ID3基礎(chǔ)上增加了隊連續(xù)屬性的離散化。 C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進行了改進。
C4.5算法是ID3算法的修訂版,采用GainRatio來加以改進方法,選取有最大GainRatio的分割變量作為準則,避免ID3算法過度配適的問題。
C5.0算法則是C4.5算法的修訂版,適用于處理大數(shù)據(jù)集,采用Boosting方式提高模型準確率,又稱為BoostingTrees,在軟件上計算速度比較快,占用的內(nèi)存資源較少。
決策樹模型,也稱規(guī)則推理模型。通過對訓(xùn)練樣本的學(xué)習(xí),建立分類規(guī)則;依據(jù)分類規(guī)則,實現(xiàn)對新樣本的分類;屬于有指導(dǎo)(監(jiān)督)式的學(xué)習(xí)方法,有兩類變量:目標變量(輸出變量),屬性變量(輸入變量)。
決策樹模型與一般統(tǒng)計分類模型的主要區(qū)別:決策樹的分類是基于邏輯的,一般統(tǒng)計分類模型是基于非邏輯的。
常見的算法有CHAID、CART、Quest和C5.0。對于每一個決策要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對這個“差異”衡量方式的區(qū)別。
代碼片段和文件信息
評論
共有 條評論