-
大小: 1.21MB文件類型: .rar金幣: 2下載: 0 次發(fā)布日期: 2023-08-19
- 語(yǔ)言: Python
- 標(biāo)簽: 大數(shù)據(jù)??課程設(shè)計(jì)??python??
資源簡(jiǎn)介
一個(gè)用python語(yǔ)言實(shí)現(xiàn)的大數(shù)據(jù)課程設(shè)計(jì),內(nèi)容是對(duì)微博部分用戶進(jìn)行分析,得到喜好,關(guān)注點(diǎn),人群特征等信息,其中還有自己提出的指數(shù),適合作為大數(shù)據(jù)作業(yè)提交給自己老師,數(shù)據(jù)和程序一并都在里面,實(shí)驗(yàn)報(bào)告可以私信我發(fā)給你。

代碼片段和文件信息
#?from?future?import?division
import?numpy?as?np
import?pandas?as?pd
import?matplotlib.pyplot?as?plt
from?numpy.random?import?randn
from?pandas?import?Series?Dataframe
from?datetime?import?datetime
import?xlrd?openpyxl
xlsx_file?=?pd.ExcelFile(‘data/test1.xlsx‘)
All?=?xlsx_file.parse(‘All‘)
d1?=?All.drop(All.columns[:11]?axis=1?inplace?=?False)
All?=?d1.drop(d1.columns[-1]?axis=1?inplace?=?False)
#?print(All.head())
print(len(All))
All[All.duplicated()==True].index[:20]
All.drop_duplicates(inplace=True)
print(len(All))
All[u‘轉(zhuǎn)發(fā)數(shù)‘][All[u‘轉(zhuǎn)發(fā)數(shù)‘]==u‘轉(zhuǎn)發(fā)‘]?=?‘0‘
All[u‘評(píng)論數(shù)‘][All[u‘評(píng)論數(shù)‘]==u‘評(píng)論‘]?=?‘0‘
All[u‘點(diǎn)贊數(shù)‘][All[u‘點(diǎn)贊數(shù)‘]==u‘贊‘]?=?‘0‘
print(All.describe())
print(All.dtypes)
All[u‘轉(zhuǎn)發(fā)數(shù)‘]=All[u‘轉(zhuǎn)發(fā)數(shù)‘].astype(‘int64‘)
All[u‘評(píng)論數(shù)‘]?=?All[u‘評(píng)論數(shù)‘].astype(‘int64‘)
All[u‘點(diǎn)贊數(shù)‘]?=?All[u‘點(diǎn)贊數(shù)‘].astype(‘int64‘)
All.to_excel(‘All.xlsx‘index=False)
All_pivot=?All.pivot_table(values=[u‘轉(zhuǎn)發(fā)數(shù)‘u‘評(píng)論數(shù)‘u‘點(diǎn)贊數(shù)‘u‘微博內(nèi)容‘]index=[u‘用戶名‘]?aggfunc={u‘轉(zhuǎn)發(fā)數(shù)‘:np.sumu‘評(píng)論數(shù)‘:np.sumu‘點(diǎn)贊數(shù)‘:np.sumu‘微博內(nèi)容‘:np.size})
All_pivot.rename(columns={u‘微博內(nèi)容‘:u‘當(dāng)月總微博數(shù)‘}inplace=True)
All_pivot.to_excel(‘All_pivot.xlsx‘)
#?22222222
sf?=?xlsx_file.parse(‘sf‘)
sfweibo?=?xlsx_file.parse(‘sfweibo‘)
sf[u‘省份前兩字‘]?=?np.nan
for?i?in?range(len(sf[u‘省份名‘])):
????sf[u‘省份前兩字‘][i]?=?sf[u‘省份名‘][i][:2]
sfweibo[u‘省份前兩字‘]?=?np.nan
for?i?in?range(len(sfweibo[u‘省份名‘])):
????sfweibo[u‘省份前兩字‘][i]?=?sfweibo[u‘省份名‘][i][:2]
print(sf.head())
sf.to_excel(‘sf.xlsx‘index=False)
sfweibo.to_excel(‘sfweibo.xlsx‘index=False)
sf_sfweibo?=?sf.merge(sfweiboon=u‘省份前兩字‘)
sf_sfweibo1?=?sf_sfweibo.iloc[:[412]]
sf_sfweibo1.to_excel(‘sf_sfweibo.xlsx‘index=False)
sf_sfweibo?=?sf_sfweibo1
sf_sfweibo_All_pivot?=pd.merge(sf_sfweiboAll_pivotleft_on=u‘微博用戶名‘right_on=u‘用戶名‘right_index=True)
sf_sfweibo_All_pivot.to_excel(‘sf_sfweibo_All_pivot.xlsx‘index=False)
#?3333333333
base?=?xlsx_file.parse(‘base_info‘)
sf_sfweibo_All_pivot_base?=?base.merge(sf_sfweibo_All_pivotleft_on=u‘昵稱‘right_on=u‘微博用戶名‘)
ssapb?=?sf_sfweibo_All_pivot_base
ssapb.rename(columns={u‘當(dāng)月總微博數(shù)_x‘:u‘當(dāng)月總微博數(shù)‘}inplace=True)
ssapb?=?ssapb.drop([u‘昵稱‘u‘當(dāng)月總微博數(shù)_y‘]axis=1)
print(ssapb.iloc[0])
ssapb[u‘當(dāng)月原創(chuàng)數(shù)‘]?=?ssapb[u‘當(dāng)月總微博數(shù)‘]-ssapb[u‘當(dāng)月轉(zhuǎn)發(fā)數(shù)‘]
linkfix?=?“?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2017-05-01&end_time=2017-05-31&is_search=1&is_searchadv=1#_0“
ssapb[u‘當(dāng)月博文網(wǎng)址‘]?=?ssapb[u‘主頁(yè)鏈接‘]+linkfix
allfix?=?“?profile_ftype=1&is_all=1#_0“
ssapb[u‘全部博文網(wǎng)址‘]?=?ssapb[u‘主頁(yè)鏈接‘]+allfix
ssapb[u‘篇均點(diǎn)贊‘]?=?ssapb[u‘點(diǎn)贊數(shù)‘]/ssapb[u‘當(dāng)月總微博數(shù)‘]
ssapb[u‘篇均轉(zhuǎn)發(fā)‘]?=?ssapb[u‘轉(zhuǎn)發(fā)數(shù)‘]/ssapb[u‘當(dāng)月總微博數(shù)‘]
ssapb[u‘篇均評(píng)論‘]?=?ssapb[u‘評(píng)論數(shù)‘]/ssapb[u‘當(dāng)月總微博數(shù)‘]
print(ssapb.iloc[0])
ssapb.to_excel(‘ssapb.xlsx‘index=False)
#?3.2222
gb?=?All.groupby(u‘用戶名‘)
gb1?=?gb.size()
gbindex?=?gb1.index
print(gbindexgb1)
sortAllf?=?All.sort_values(by=[u‘用戶名‘u‘轉(zhuǎn)發(fā)數(shù)‘]ascending=[TrueFalse])
sortAllc?=?All.sort_values(by=[u‘用戶名‘u‘評(píng)論數(shù)‘]ascendi
?屬性????????????大小?????日期????時(shí)間???名稱
-----------?---------??----------?-----??----
?????文件??????49152??2020-06-10?11:03??大數(shù)據(jù)課設(shè)\business_circle.xls
?????文件???????6236??2020-06-05?15:02??大數(shù)據(jù)課設(shè)\dataAnalysis.py
?????文件???????2879??2020-06-10?13:39??大數(shù)據(jù)課設(shè)\dataAnalysis2.py
?????文件????1306165??2020-06-05?10:16??大數(shù)據(jù)課設(shè)\test1.xlsx
?????目錄??????????0??2020-07-26?17:02??大數(shù)據(jù)課設(shè)
-----------?---------??----------?-----??----
??????????????1364432????????????????????5
評(píng)論
共有 條評(píng)論