91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

資源簡介

爬取天貓(淘寶)在售物品的數據,包含產地、標價、名稱、實際價格、評價、廠家等數據。輸入需采集信息物品的名稱、數據條數、頁面數,可自動爬取。爬取結束后給出提示并將爬取數據存儲在文件目錄下。

資源截圖

代碼片段和文件信息

import?re
import?requests
import?time#導入相關庫


def?getNowTime(form=‘%Y-%m-%d_%H-%M-%S‘):#輸出csv文件的相關占位符,輸出的csv文件會存儲在文件目錄下
????nowTime?=?time.strftime(form?time.localtime())
????return?nowTime#定義相關時間屬性

#?搜索關鍵字
?#想搜啥搜啥,真男人當然看芭比娃娃。
searchKey?=?input(‘請輸入要查找的物品:‘)#輸入
#?輸出文件編碼(一般是utf-8,如果輸出的csv文件發現會亂碼,可以用ansi,反正就這兩,其它咱也不知道。)
encode?=?‘UTF_8‘
#?keys是我要獲取的物品信息屬性分別是品牌名、價格、產地、售價、評論條數和生產公司。
keys?=?(‘raw_title‘‘view_price‘‘item_loc‘‘view_sales‘‘comment_count‘‘nick‘)

url?=?‘https://s.taobao.com/search‘#鏈接地址從淘寶進入。
params?=?{‘q‘:searchKey?‘ie‘:‘utf8‘}
header?=?{
????“cookie“:“cna=EYnEFeatJWUCAbfhIw4Sd0GO;?x=__ll%3D-1%26_ato%3D0;?hng=CN%7Czh-CN%7CCNY%7C156;?uc1=cookie14=UoTaHYecARKhrA%3D%3D;?uc3=vt3=F8dBy32hRyZzP%2FF7mzQ%3D&lg2=U%2BGCWk%2F75gdr5Q%3D%3D&nk2=1DsN4FjjwTp04g%3D%3D&id2=UondHPobpDVKHQ%3D%3D;?t=ad1fbf51ece233cf3cf73d97af1b6a71;?tracknick=%5Cu4F0F%5Cu6625%5Cu7EA22013;?lid=%E4%BC%8F%E6%98%A5%E7%BA%A22013;?uc4=nk4=0%401up5I07xsWKbOPxFt%2BwuLaZ8XIpO&id4=0%40UOE3EhLY%2FlTwLmADBuTfmfBbGpHG;?lgc=%5Cu4F0F%5Cu6625%5Cu7EA22013;?enc=ieSqdE6T%2Fa5hYS%2FmKINH0mnUFINK5Fm1ZKC0431E%2BTA9eVjdMzX9GriCY%2FI2HzyyntvFQt66JXyZslcaz0kXgg%3D%3D;?_tb_token_=536fb5e55481b;?cookie2=157aab0a58189205dd5030a17d89ad52;?_m_h5_tk=150df19a222f0e9b600697737515f233_1565931936244;?_m_h5_tk_enc=909fba72db21ef8ca51c389f65d5446c;?otherx=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0;?l=cBa4gFrRqYHNUtVvBOfiquI8a17O4IJ51sPzw4_G2ICP9B5DeMDOWZezto8kCnGVL6mpR3RhSKO4BYTKIPaTlZXRFJXn9MpO.;?isg=BI6ORhr9X6-NrOuY33d_XmZFy2SQp1Ju1qe4XLjXJRHsGyp1IJ9IG0kdUwfSA0oh“
????“referer“:“https://detail.tmall.com/item.htm“
????“user-agent“:“Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/55.0.2883.87?UBrowser/6.2.4098.3?Safari/537.36“
}#后臺cookie,主要發揮代碼作用的,從主頁面后臺代碼獲得。因為淘寶反爬取,一般網址鏈接獲取數據不理想,用cookie效果最好。
startPage?=?1?#?起始頁面
pageTotal?=?3?#?爬取多少頁,可以按需求改,不要太大,血的教訓啊。淚目,淚目。
waitTime?=?2?#?等待時間(如果爬的速度太快會被封,要慎重啊。爬取不規范,情人兩行淚。)
rowWrited?=?0
startTime?=?time.time()#重寫

print(‘啟動爬取\n{}?|?初始化存儲文件...‘.format(getNowTime()))#準備爬取信號
fileName?=?r‘tmall_{}_{}_{}_{}.csv‘.format(searchKey?startPage?pageTotal?getNowTime())#輸出csv文件的格式
with?open(fileName?‘w‘?encoding=encode)?as?saveFile:
????saveFile.write(‘‘.join(keys)?+?‘\n‘)#準備存儲

print(‘關鍵詞:{}?起始頁面:{}?爬取頁面數:{}?開始執行..‘.format(searchKey?startPage?pageTotal))#開始爬取信號
for?page?in?range(startPage?pageTotal+1):
????print(‘\npage{}:?獲取數據...‘.format(page))
????time.sleep(waitTime)#獲取頁面數據
????params[‘s‘]?=?str(page?*?44)?if?page?>?1?else?‘1‘#定義爬取頁數和條數最少一頁
????resp?=?requests.get(url?params?headers=header)#依次獲取url、parms、header
????results?=?[re.findall(r‘“{}“:“([^“]+)“‘.format(key)?resp.text.replace(‘\n‘‘‘).replace(‘\r‘‘‘).replace(‘‘‘‘).strip()?re.I)?for?key?in?keys]
????print(‘page{}:?正在寫入數據...‘.format(page))#寫入數據
????with?open(fileName?‘a‘?encoding=encode)?as?saveFile:
????????for?row?in?range(len(results[0])):
????????????print(‘\r寫入第{}條..‘.format(row+1)?end=‘‘)#寫入數據條數
?????

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????????4310??2020-07-08?16:16??tmall.py
?????文件????????3899??2020-07-08?16:18??tmall.TXT
?????文件?????????111??2020-07-08?16:06??說明.TXT

評論

共有 條評論