baidu.py

大小: 0M

文件類型: .py

金幣: 1

下載: 0 次

發布日期: 2021-06-16
語言: Python
標簽: 其他??

高速下載

資源簡介

baidu.py

資源截圖

小圖大圖

代碼片段和文件信息

#coding:utf-8
#5.6
#獲取的url為真實url代碼中設置了timeout為3s
#所以有些結果得到的依舊不是真實網址，想獲取更多真實url可以增大timeout的值，但是無疑速度會更慢
import?sys
reload（sys）
sys.setdefaultencoding（‘utf-8‘）

import?requests
import?urllib
import?urllib2
import?re

base_URL?=?‘http://www.baidu.com‘
URL?=?‘http://www.baidu.com/s?wd=‘

class?Baidu（）:
	session?=?requests.Session（）
	#這個變量存儲當前頁的網頁代碼
	curContent?=?‘‘
	headers?=?{‘User-Agent‘:‘Mozilla/5.0?（Windows?NT?6.1;?WOW64）?AppleWebKit/537.36‘+\
	?‘（KHTML?like?Gecko）?Chrome/47.0.2526.106?Safari/537.36‘}
	nextpage?=?‘‘
	def?getContent（selfurl）:
		r?=?self.session.get（urlheaders?=?self.headers）
		self.curContent?=?r.content
	def?getHref（self）:
		pattern?=?re.compile（‘			‘+.*?>（.*?）‘re.S）
		items?=?re.findall（patternself.curContent）
		return?items

	#下面兩個函數是為了得到當前所處的頁數
	def?getPageContent（selfwebcontent）:
		‘‘‘
		這里已經將所有的關于該頁搜索結果中的頁碼信息都得到
		可以在這里將其他頁碼的鏈接得到
		‘‘‘
		pattern?=?re.compile（‘（.*?）

‘re.S）
		pageContent?=?re.findall（patternwebcontent）
		#?print?pageContent
		pageContent?=?pageContent[0]
		return?pageContent
	def?getCurrentPage（self）:
		pageContent?=?self.getPageContent（self.curContent）
		regx?=?r‘（\d）‘
		pm?=?re.search（regxpageContent）
		curPage?=?pm.group（1）
		return?curPage
	def?getHrefByPage（selfpage）:
		if?page?==?self.getCurrentPage（）:
			print?“It‘s?the?page?you?want“
			return
		pageContent?=?self.getPageContent（self.curContent）
		regx?=?re.compile（r‘.*?（\d）‘re.S）
		pm?=?re.findall（regxpageContent）
		for?item?in?pm:
			if?int

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

baidu.py

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源