資源簡介
可以抓取網頁中的pdf文檔
代碼片段和文件信息
import?urllib2
import?osurllib
import?re
import?shutil
import?socket
socket.setdefaulttimeout(60)
def?downLoadPicFromURL(urldest_dir):
?????try:
?????????urllib.urlretrieve(urldest_dir)
?????except:
?????????print?(‘\tError?retrieving?the?URL:‘dest_dir)
?????????
html?=?urllib2.urlopen(“www.baidu.com“).read()
print?html
#urlpdf?=?re.findall(r“http://www.*?pd
評論
共有 條評論