資源簡介
利用python進行聚類分析,適用于python3.7版本,經過實際例子驗證。
代碼片段和文件信息
#-*-?coding:?utf-8?-*-
#使用K-Means算法聚類消費行為特征數據
import?pandas?as?pd
#參數初始化
inputfile?=?‘d:/Python/data/consumption_data.xls‘?#銷量及其他屬性數據
outputfile?=?‘d:/Python/tmp/data_type.xls‘?#保存結果的文件名
k?=?3?#聚類的類別
iteration?=?500?#聚類最大循環次數
data?=?pd.read_excel(inputfile?index_col?=?‘Id‘)?#讀取數據
data_zs?=?1.0*(data?-?data.mean())/data.std()?#數據標準化
from?sklearn.cluster?import?KMeans
model?=?KMeans(n_clusters?=?k?n_jobs?=?4?max_iter?=?iteration)?#分為k類,并發數4
model.fit(data_zs)?#開始聚類
#簡單打印結果
r1?=?pd.Series(model.labels_).value_counts()?#統計各個類別的數目
r2?=?pd.Dataframe(model.cluster_centers_)?#找出聚類中心
r?=?pd.concat([r2?r1]?axis?=?1)?#橫向連接(0是縱向),得到聚類中心對應的類別下的數目
r.columns?=?list(data.columns)?+?
評論
共有 條評論