91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 2KB
    文件類型: .py
    金幣: 1
    下載: 0 次
    發(fā)布日期: 2021-01-06
  • 語言: Python
  • 標簽: 爬蟲??Python??

資源簡介

簡單的爬蟲程序,以某小說網站的一個小說為例,對其進行爬取

資源截圖

代碼片段和文件信息

#?導入模塊
from?lxml?import?html
import?requests
import?re
import?os.path

starturl?=?‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘?#初始URL
dir?=?‘d:\\爬蟲目錄\\‘??#文件存放目錄


page?=?requests.get(starturl?timeout=600)??#?請求網頁數據
if?page.status_code?==?requests.codes.ok:???#?如果網頁傳輸正常
????m?=?[]?#?m是一個空的列表
????tree?=?html.fromstring(page.content)??#?將網頁解析為一個樹狀結構
????elem?=?tree.xpath(‘//*[@id=“main“]/div[2]/dl‘)?#在樹中導航,找到對應的節(jié)點列表
????dl?=?elem[0]??#定位到其中的第一個節(jié)點
????for?dd?in?dl.xpath(‘./dd‘):??#定位子節(jié)點
????????href?=?dd.xpath(‘./a/@href‘)
????????if?href:
????????????m.append(‘http://www.wuxia.net.cn‘+‘‘.join(href))
????print(m)

????

評論

共有 條評論