-
大小: 1KB文件類型: .py金幣: 1下載: 0 次發(fā)布日期: 2021-06-01
- 語言: Python
- 標(biāo)簽:
資源簡(jiǎn)介
利用Python爬蟲抓取網(wǎng)頁上的圖片,當(dāng)遇到不合法的URL時(shí),會(huì)自動(dòng)處理異常,不會(huì)導(dǎo)致程序崩潰。直到下載完整個(gè)頁面的圖片,程序才會(huì)退出
代碼片段和文件信息
import?urllib
import?urllib.request
import?re
#傳入U(xiǎn)RL,返回該URL所指的文件的數(shù)據(jù)流
def?download_page(url):
????headers?=?{‘User-Agent‘:?‘Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10_11_2)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/47.0.2526.80?Safari/537.36‘}?#對(duì)爬蟲進(jìn)行偽裝
????request?=?urllib.request.Request(url?headers=headers)??#構(gòu)建請(qǐng)求
????response?=?urllib.request.urlopen(request)??#獲取服務(wù)器響應(yīng)
????data?=?response.read()
????return?data
def?get_image(html):
????regx?=?r‘http://[\S][^:]*\.jpg‘
????pattern?=?re.compile(regx?re.I)??#忽略大小寫
????get_img?=?re.fin
評(píng)論
共有 條評(píng)論