資源簡介
大數據癌癥疾病預測算法python版(含數據),建議使用pycharm運行。

代碼片段和文件信息
#-*-?coding:?utf-8?-*-
‘‘‘
聚類離散化,最后的result的格式為:
??????1???????????2???????????3???????????4
A?????0????0.178698????0.257724????0.351843
An??240??356.000000??281.000000???53.000000
即(0?0.178698]有240個,(0.178698?0.257724]有356個,依此類推。
‘‘‘
from?__future__?import?print_function
import?pandas?as?pd
from?sklearn.cluster?import?KMeans?#導入K均值聚類算法
datafile?=?‘../data/data.xls‘?#待聚類的數據文件
processedfile?=?‘../tmp/data_processed.xls‘?#數據處理后文件
typelabel?={u‘肝氣郁結證型系數‘:‘A‘?u‘熱毒蘊結證型系數‘:‘B‘?u‘沖任失調證型系數‘:‘C‘?u‘氣血兩虛證型系數‘:‘D‘?u‘脾胃虛弱證型系數‘:‘E‘?u‘肝腎陰虛證型系數‘:‘F‘}
k?=?4?#需要進行的聚類類別數
#讀取數據并進行聚類分析
data?=?pd.read_excel(datafile)?#讀取數據
keys?=?list(typelabel.keys())
result?=?pd.Dataframe()
if?__name__?==?‘__main__‘:?#判斷是否主窗口運行,如果是將代碼保存為.py后運行,則需要這句,如果直接復制到命令窗口運行,則不需要這句。
??for?i?in?range(len(keys)):
????#調用k-means算法,進行聚類離散化
????print(u‘正在進行“%s”的聚類...‘?%?keys[i])
????kmodel?=?KMeans(n_clusters?=?k?n_jobs?=?4)?#n_jobs是并行數,一般等于CPU數較好
????kmodel.fit(data[[keys[i]]].as_matrix())?#訓練模型
????
????r1?=?pd.Dataframe(kmodel.cluster_centers_?columns?=?[typelabel[keys[i]]])?#聚類中心
????r2?=?pd.Series(kmodel.labels_).value_counts()?#分類統計
????r2?=?pd.Dataframe(r2?columns?=?[typelabel[keys[i]]+‘n‘])?#轉為Dataframe,記錄各個類別的數目
????r?=?pd.concat([r1?r2]?axis?=?1).sort(typelabel[keys[i]])?#匹配聚類中心和類別數目
????r.index?=?[1?2?3?4]
????
????r[typelabel[keys[i]]]?=?pd.rolling_mean(r[typelabel[keys[i]]]?2)?#rolling_mean()用來計算相鄰2列的均值,以此作為邊界點。
????r[typelabel[keys[i]]][1]?=?0.0?#這兩句代碼將原來的聚類中心改為邊界點。
????result?=?result.append(r.T)
??result?=?result.sort()?#以Index排序,即以ABCDEF順序排
??result.to_excel(processedfile)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件???????2200??2018-07-29?17:49??demo\code\8-1_discretization.py
?????文件???????1148??2018-07-29?17:49??demo\code\8-2_apriori_rules.py
?????文件???????2420??2018-07-29?17:49??demo\code\apriori.py
?????文件??????20460??2018-07-29?17:49??demo\data\apriori.txt
?????文件?????193536??2018-07-29?17:49??demo\data\data.xls
?????文件???????5632??2018-07-29?17:49??demo\tmp\data_processed.xls
?????文件???????2414??2018-07-29?17:49??test\code\apriori.py
?????文件???????1133??2018-07-29?17:49??test\code\apriori_rules.py
?????文件???????2167??2018-07-29?17:49??test\code\discretization.py
?????文件??????20460??2018-07-29?17:49??test\data\apriori.txt
?????文件?????193536??2018-07-29?17:49??test\data\data.xls
?????目錄??????????0??2018-07-29?17:49??demo\code
?????目錄??????????0??2018-07-29?17:49??demo\data
?????目錄??????????0??2018-07-29?17:49??demo\tmp
?????目錄??????????0??2018-07-29?17:49??test\code
?????目錄??????????0??2018-07-29?17:49??test\data
?????目錄??????????0??2018-07-29?18:17??test\tmp
?????目錄??????????0??2018-07-29?17:49??demo
?????目錄??????????0??2018-07-29?18:17??test
-----------?---------??----------?-----??----
???????????????445106????????????????????19
評論
共有 條評論