資源簡介
用python語言寫的一個網絡爬蟲程序,實現了爬取網站內的所有鏈接,可以用來對一個網站的受歡迎程度進行數據分析
代碼片段和文件信息
#?encoding?utf-8
#?Function:acquire?the?link?on?the?web?page
import?urllib.request
import?re
r?=?re.compile(r‘href=“(http://www\.cnpythoner\.com.+?)“‘)#正則
def?get_urls_and_save_from_contents(url):???????#打開當前頁面,篩選符合條件的網址
????????try:
????????????????req?=?urllib.request.Request(url)
????????????????req.add_header(‘User-Agent‘‘Mozilla/5.0?(Windows?NT?10.0)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/46.0.2486.0?Safari/537.36?Edge/13.10586‘)
????????????????response?=?urllib.request.urlopen(req)
????????????????contents?=?response.read().decode(‘utf-8‘)
????????????????g?=?[]
???
評論
共有 條評論