資源簡介
由于數據的記錄,維護,處理和存儲方式,大數據分析面臨挑戰。 我們證明了分層的,多元的統計機器學習算法,即增強回歸樹(BRT)可以解決大數據挑戰以推動決策。 這項研究面臨的挑戰是缺乏互操作性,因為數據,GIS形狀文件集合,遙感圖像以及聚合和內插的時空信息都存儲在整體硬件組件中。 對于建模過程,有必要創建一個公共輸入文件。 通過將數據源合并在一起,創建了一個結構化但嘈雜的輸入文件,該文件顯示了不一致和冗余。 在此表明,BRT可以處理不同的數據粒度,異構數據和丟失。 特別是,BRT的優點是默認情況下允許通過區分是否缺失值以及缺失值來處理缺失數據。 最重要的是,BRT提供了多種關于結果解釋的可能性,并且通過考慮使用變量在樹中定義拆分的頻率來自動執行變量選擇。 與兩個類似的回歸模型(隨機森林和最小絕對收縮和選擇算子,LASSO)的比較表明,在這種情況下,BRT的性能優于后者。 BRT還可作為現實場景中復雜的層次建模的起點。 例如,可以使用現有模型來測試BRT的單一方法或整體方法,以改善各種數據驅動的決策和應用程序的結果。
代碼片段和文件信息
評論
共有 條評論