資源簡介
利用爬蟲爬取得進擊的巨人漫畫,放在d盤test下,目前到109話。請修改參數
代碼片段和文件信息
import?urllib.request
import?re
import?os
import?urllib
#根據給定的網址來獲取網頁詳細信息,得到的html就是網頁的源代碼
def?getHtml(url):
????page?=?urllib.request.urlopen(url)
????html?=?page.read()
????return?html.decode(‘UTF-8‘)
def?getImg(html):
????#
????reg?=?r‘mhurl=(.+?\.jpg)“‘
????imgre?=?re.compile(reg)
????imglist2?=?imgre.findall(html)[0]#表示在整個網頁中過濾出所有圖片的地址,放在imglist中
????imglist2=imglist2[1:]
????print(imglist2)
????imglist=?[r‘http://p‘+str(i)+r‘.xiaoshidi.net/‘+imglist2?for?i?in?range(1)]
????print?(?imglist?)
????x?=?0
????path?=?‘D:\\test‘
????#?將圖片保存到D:\\test文件夾中,如果沒有test文件夾則創建
?
評論
共有 條評論
- 頂一次
- 踩一次 1400 次