資源簡介
利用python中的re和requests模塊,實現對網站中的視頻進行爬取,對于圖片和文字的爬取也是同樣的原理,重點是學會就網頁html標簽的正確正則就能獲取到我們需要的數據,這里是用的單線程爬取
代碼片段和文件信息
#?-*-?coding:?cp936?-*-
import?re
import?requests
response=requests.get(“http://www.xiaohuar.com/v/“)??#以下載校花網中的視頻為例
print(response.status_code)??#打開網頁的響應狀態碼?若返回200-表示成功
print(response.content)???#返回字節信息
print(response.text)???#返回文本內容
#正則,匹配該網站中的視頻播放頁的頁面地址
iter=re.finditer(r‘class=“items“.*?href=“(.*?)“‘response.text)
j=1;
for?i?in?iter:????
????url=i.group(1)
????print(url)?#打印視頻播放頁的頁面地址,用來觀察正則是否正確
????result=requests.get(url)
????try:???
#正則,匹配視頻的下載地址
????????mp4_url=re.findall(r‘id=“media“.*?src=“(.*?)“‘result.textre.S)[0]
????????#獲取視頻的擴展名,是mp4就下載,不是mp4就不下載
評論
共有 條評論