資源簡介
Python聚類分析源代碼,需要的下載之后,用自己的XML文件替換我的XML文件,并重新設(shè)置路徑就可以使用
代碼片段和文件信息
#-*-?coding:utf-8?-*-
import?pandas?as?pd
import?numpy?as?np
import?seaborn?as?sns
import?matplotlib.pyplot?as?plt
from?pandas?import?DataframeSeries
from?sklearn.linear_model?import?LinearRegression
from??sklearn.model_selection?import??train_test_split#隨機分割訓(xùn)練集和測試集
from??sklearn?import??metrics#用來評估預(yù)測誤差---計算真實值與預(yù)測值之間的預(yù)測誤差
#讀取文件
datafile?=?u‘F:\QQ文件\Annual%2Bsalary.xls‘#文件所在位置,u為防止路徑中有中文名稱,此處沒有,可以省略
data?=?pd.read_excel(datafile)#datafile是excel文件,所以用read_excel如果是csv文件則用read_csv
examDf?=?Dataframe(data)
plt.rcParams[‘font.sans-serif‘]=[‘SimHei‘]
plt.rcParams[‘a(chǎn)xes.unicode_minus‘]?=?False
#數(shù)據(jù)清洗比如第一列有可能是日期,這樣的話我們就只需要從第二列開始的數(shù)據(jù),
#這個情況下,把下面中括號中的0改為1就好,要哪些列取哪些列
new_examDf?=?examDf.ix[:0:]
#拆分訓(xùn)練集和測試集
X_trainX_testY_trainY_test?=?train_test_split(new_examDf.ix[::3]new_examDf.Returntrain_size=0.8)
#new_examDf.ix[::2]取了數(shù)據(jù)中的前兩列為自變量,此處與單變量的不同
print(“自變量---源數(shù)據(jù):“new
評論
共有 條評論