91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 5KB
    文件類型: .py
    金幣: 1
    下載: 1 次
    發布日期: 2021-06-12
  • 語言: Python
  • 標簽: python??

資源簡介

師兄寫的python 爬蟲的程序,師兄寫的python 爬蟲的程序

資源截圖

代碼片段和文件信息

#?-*-?coding:?cp936?-*-

import?urllib
import?urllib2
import?httplib
import?threading
import?re
import?string
import?time
import?os
import?StringIO
import?gzip
from?urllib2?import?URLErrorHTTPError
from?httplib?import?BadStatusLine

class?spider(threading.Thread):
????def?__init__(selfthreadnameresultstartpagebasekeywordpathmode=0):
????????threading.Thread.__init__(selfname=threadname)
????????self.result=result
????????self.startpage=startpage
????????self.base=base
????????self.keyword=keyword
????????self.path=path
????????self.mode=mode????#爬取的類型:商品?公司
????def?run(self):
????????starttime=time.clock()
????????retry=0?????#設置連接次數
????????page=self.startpage
????????while?1:
????????????if(page>70):????#公司類
????????????????endtime=time.clock()
????????????????print?self.getName()+‘thread?finish?total?time:%d‘%(endtime-starttime)
????????????????#print?self.result
????????????????print?‘**********%d‘%len(self.result)
????????????????break
????????????if(page>10?and?self.mode==1):????#商品類
????????????????endtime=time.clock()
????????????????print?self.getName()+‘thread?finish?total?time:%d‘%(endtime-starttime)
????????????????#print?self.result
????????????????print?‘**********%d‘%len(self.result)
????????????????break
????????????????
????????????try:
????????????????url=“http://www.baidu.com/s?wd=“+urllib.quote(self.keyword)+“&pn=“+str(page*10)
????????????????#url=“http://www.google.com.hk/search?q=“+urllib.quote(self.keyword)+‘&hl=zh-CN&newwindow=1&safe=strict&biw=1199&bih=654&prmd=ivnscm&ei=HMOCTeWyDo_RcfjR_ZkD&start=‘+str(page*10)
????????????????req=urllib2.Request(url)
????????????????req.add_header(“User-Agent“‘Mozilla/5.0?(X11;?U;?Linux?i686;?zh-CN;?rv:1.9.0.5)?Gecko/2008121622?Ubuntu/8.10?(intrepid)?Firefox/3.0.5‘)
????????????????response=urllib2.urlopen(req)
????????????????html=response.read()
????????????????self.searchResult(htmlself.mode)
????????????????page=page+self.base
????????????????
????????????except?HTTPErrore:
????????????????print?“the?server?can‘t?fullfill?the?request.\n“
????????????????print?“Error?code:“e.code
????????????????page=page+self.base
????????????????
????????????except?URLErrore:
????????????????if(retry>2):
????????????????????print?“can‘t?open?the?%d?page?url“%page
????????????????????print?“URLError:“e.reason
????????????????????page=page+self.base?
????????????????????retry=0
????????????????else:
????????????????????print?“retry?connnect?to:%d?page“%page
???????

評論

共有 條評論