資源簡介
1.2功能需求
?明確任務:明確目的、確定思路
?數據收集:網絡爬蟲、公開數據集、客戶數據
?數據處理:數據清洗、數據規整
?數據分析:數據統計、探索性數據分析(EDA)、數據建模
?結果展示:數據可視化、報表生成、結果保存
數據收集:獲取歌單索引頁、獲取歌單詳情頁
數據處理:數據清洗、數據規整
數據分析統計:歌曲出現次數TOP10,歌單貢獻UP主TOP10,歌曲播放量TOP10,歌單收藏量TOP10,歌單評論數TOP10
歌單收藏數量分布情況,單播放數量分布情況,歌單標簽圖,歌單介紹詞云圖
結果展示:可視化圖表
二、項目分析與設計
2.1本項目需解決的關鍵技術問題
1.運用大數據分析技術對網站數據進行挖掘。
2.將挖掘到的數據輸出到excel表格,并統一到一起進行整理。
3.對大量的數據基于Python進行技術分析,完成數據分析。
4.通過代碼實現數據可視化,得出所需要的結論的圖表形式。
2.2項目流程
1.基于Python語言,對網站數據進行爬取挖掘。
2.將數據整理到表格中。
3.對數據進行分析,并對數據進行統計處理,得到所需要的數據。
4.對數據進行計算處理,得到所需要的排名,占比等。
5.進行數據可視化,將得出的結論通過更直觀的圖表形式呈現。
?明確任務:明確目的、確定思路
?數據收集:網絡爬蟲、公開數據集、客戶數據
?數據處理:數據清洗、數據規整
?數據分析:數據統計、探索性數據分析(EDA)、數據建模
?結果展示:數據可視化、報表生成、結果保存
數據收集:獲取歌單索引頁、獲取歌單詳情頁
數據處理:數據清洗、數據規整
數據分析統計:歌曲出現次數TOP10,歌單貢獻UP主TOP10,歌曲播放量TOP10,歌單收藏量TOP10,歌單評論數TOP10
歌單收藏數量分布情況,單播放數量分布情況,歌單標簽圖,歌單介紹詞云圖
結果展示:可視化圖表
二、項目分析與設計
2.1本項目需解決的關鍵技術問題
1.運用大數據分析技術對網站數據進行挖掘。
2.將挖掘到的數據輸出到excel表格,并統一到一起進行整理。
3.對大量的數據基于Python進行技術分析,完成數據分析。
4.通過代碼實現數據可視化,得出所需要的結論的圖表形式。
2.2項目流程
1.基于Python語言,對網站數據進行爬取挖掘。
2.將數據整理到表格中。
3.對數據進行分析,并對數據進行統計處理,得到所需要的數據。
4.對數據進行計算處理,得到所需要的排名,占比等。
5.進行數據可視化,將得出的結論通過更直觀的圖表形式呈現。
代碼片段和文件信息
import?time
import?requests
from?bs4?import?BeautifulSoup
headers?=?{
????‘User-Agent‘:‘Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/63.0.3239.132?Safari/537.36‘
}
citys?=?[‘beijing‘?‘shanghai‘?‘guangzhou‘?‘shenzhen‘]
for?i?in?range(len(citys)):
????time.sleep(5)
????for?j?in?range(1?13):
????????time.sleep(5)
????????url?=?‘http://www.tianqihoubao.com/aqi/‘?+?citys[i]?+?‘-2018‘?+?str(“%02d“?%?j)?+?‘.html‘
????????response?=?requests.get(url=url?headers=headers)
????????soup?=?BeautifulSoup(response.text?‘html.parser‘)
????????tr?=?soup.find_all(‘tr‘)
????????for?k?in?tr[1:]:
????????????td?=?k.find_all(‘td‘)
????????????Date?=?td[0].get_text().strip()
????????????Quality_grade?=?td[1].get_text().strip()
????????????AQI?=?td[2].get_text().strip()
????????????AQI_rank?=?td[3].get_text().strip()
????????????PM?=?td[4].get_text()
????????????filename?=?‘air_‘?+?citys[i]?+?‘_2018.csv‘
????????????with?open(filename?‘a+‘?encoding=‘utf-8-sig‘)?as?f:
????????????????f.write(Date?+?‘‘?+?Quality_grade?+?‘‘?+?AQI?+?‘‘?+?AQI_rank?+?‘‘?+?PM?+?‘\n‘)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2019-03-29?11:25??大數據實訓\
?????目錄???????????0??2019-01-14?18:26??大數據實訓\2018天氣\
?????文件????????1129??2019-01-14?18:26??大數據實訓\2018天氣\air_BSGS_2018.py
?????文件????????1269??2019-01-14?18:26??大數據實訓\2018天氣\air_BSGS_2018_AQI_month.py
?????文件????????1269??2019-01-14?18:26??大數據實訓\2018天氣\air_BSGS_2018_PM2.5_month.py
?????文件????????1647??2019-01-14?18:26??大數據實訓\2018天氣\air_BSGS_2018_Quality_grade.py
?????文件????????9130??2019-01-14?18:26??大數據實訓\2018天氣\air_beijing_2018.csv
?????文件????????8299??2019-01-14?18:26??大數據實訓\2018天氣\air_guangzhou_2018.csv
?????文件????????8456??2019-01-14?18:26??大數據實訓\2018天氣\air_shanghai_2018.csv
?????文件????????8022??2019-01-14?18:26??大數據實訓\2018天氣\air_shenzhen_2018.csv
?????文件???????10585??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017.csv
?????文件?????????958??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017.py
?????文件?????????538??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_AQI.py
?????文件?????????842??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_AQI_month.py
?????文件?????????895??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_AQI_season.py
?????文件?????????541??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_PM2.5.py
?????文件?????????986??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_PM2.5_heatmap.py
?????文件?????????842??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_PM2.5_month.py
?????文件?????????897??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_PM2.5_season.py
?????文件?????????729??2019-01-14?18:26??大數據實訓\2018天氣\air_tianjin_2017_Quality_grade.py
?????文件?????9508100??2019-01-16?16:06??大數據實訓\8000116338尹林英8000116344崔雪蕊.zip
?????文件?????3255124??2019-01-16?11:32??大數據實訓\8000116363-余岷蓉,8000116389-周佳玲.zip
?????文件??????111954??2019-01-15?09:47??大數據實訓\music.csv
?????文件?????2418673??2019-01-15?09:47??大數據實訓\music_message_3.csv
?????文件??????510179??2019-01-15?09:47??大數據實訓\music_message_4.csv
?????目錄???????????0??2019-02-16?13:01??大數據實訓\weixintuwen\
?????文件??????143432??2019-02-16?12:55??大數據實訓\weixintuwen\微信圖片_20190216121058.jpg
?????文件??????150776??2019-02-16?12:56??大數據實訓\weixintuwen\微信圖片_20190216121348.jpg
?????文件???????57153??2019-02-16?12:57??大數據實訓\weixintuwen\微信圖片_20190216121353.jpg
?????文件??????134978??2019-02-16?12:57??大數據實訓\weixintuwen\微信圖片_20190216121424.jpg
?????文件??????135361??2019-02-16?12:57??大數據實訓\weixintuwen\微信圖片_20190216121439.jpg
............此處省略157個文件信息
評論
共有 條評論