91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 6KB
    文件類型: .rar
    金幣: 2
    下載: 0 次
    發(fā)布日期: 2021-05-26
  • 語(yǔ)言: Python
  • 標(biāo)簽: python??爬蟲(chóng)??

資源簡(jiǎn)介

包含了糗事百科python爬蟲(chóng) 百度貼吧爬蟲(chóng) 和360新聞爬蟲(chóng)樣例 歡迎下載

資源截圖

代碼片段和文件信息

#?-*-?coding:?utf-8?-*-??
#---------------------------------------??
#???程序:360新聞標(biāo)題獲取器??
#???版本:0.5??
#???作者:閑云??
#???日期:2013-11-03??
#???語(yǔ)言:Python?2.7????
#???功能:將360新聞標(biāo)題的內(nèi)容打包txt存儲(chǔ)到本地。??
#---------------------------------------??
???
import?string??
import?urllib2??
import?re??
??
#-----------?處理頁(yè)面上的各種標(biāo)簽?-----------??
class?HTML_Tool:??
????#?用非?貪婪模式?匹配?\t?或者?\n?或者?空格?或者?超鏈接?或者?圖片??
????BgnCharToNoneRex?=?re.compile(“(\t|\n|?||)“)??
??????
????#?用非?貪婪模式?匹配?任意<>標(biāo)簽??
????EndCharToNoneRex?=?re.compile(“<.*?>“)??
??
????#?用非?貪婪模式?匹配?任意

標(biāo)簽??
????BgnPartRex?=?re.compile(““)??
????CharToNewLineRex?=?re.compile(“(
|

||
|
)“)??
????CharToNextTabRex?=?re.compile(““)??
??
????#?將一些html的符號(hào)實(shí)體轉(zhuǎn)變?yōu)樵挤?hào)??
????replaceTab?=?[(“<““<“)(“>““>“)(“&““&“)(“&““\““)(“?““?“)]??
??????
????def?Replace_Char(selfx):??
????????x?=?self.BgnCharToNoneRex.sub(““x)??
????????x?=?self.BgnPartRex.sub(“\n????“x)??
????????x?=?self.CharToNewLineRex.sub(“\n“x)??
????????x?=?self.CharToNextTabRex.sub(“\t“x)??
????????x?=?self.EndCharToNoneRex.sub(““x)??
??
????????for?t?in?self.replaceTab:????
????????????x?=?x.replace(t[0]t[1])????
????????return?x????
??????
class?xw_News:??
????#?申明相關(guān)的屬性??
????def?__init__(selfurl):????
????????self.myUrl?=?url??
????????self.datas?=?[]??
????????self.myTool?=?HTML_Tool()??
????????print?u‘已經(jīng)啟動(dòng)360新聞爬蟲(chóng),咔嚓咔嚓‘??
????
????#?初始化加載頁(yè)面并將其轉(zhuǎn)碼儲(chǔ)存??
????def?News(self):??
????????#?讀取頁(yè)面的原始信息并將其從gbk轉(zhuǎn)碼??
????????myPage?=?urllib2.urlopen(self.myUrl).read().decode(“utf-8“)???
????????#?獲取最終的數(shù)據(jù)??
????????self.save_data(self.myUrl)???
????#?用來(lái)存儲(chǔ)樓主發(fā)布的內(nèi)容??
????def?save_data(selfurl):??
????????#?加載頁(yè)面數(shù)據(jù)到數(shù)組中??
????????self.get_data(url)??
????????#?打開(kāi)本地文件??
????????f?=?open((‘今日新聞?lì)^條.doc‘).decode(‘utf-8‘)‘w+‘)??
????????f.writelines(self.datas)??
????????f.close()??
????????print?u‘爬蟲(chóng)報(bào)告:文件已下載到本地并打包成doc文件‘??
????????print?u‘請(qǐng)按任意鍵退出...‘??
????????raw_input();??
??
????#?獲取頁(yè)面源碼并將其存儲(chǔ)到數(shù)組中??
????def?get_data(selfurl):??
????????????myPage?=?urllib2.urlopen(url).read()??
????????????#?將myPage中的html代碼處理并存儲(chǔ)到datas里面??
????????????self.deal_data(myPage.decode(‘utf-8‘))??
??????????????
??
????#?將內(nèi)容從頁(yè)面代碼中摳出來(lái)??
????def?deal_data(selfmyPage):??
????????myItems?=?re.findall(‘(.*?)‘myPagere.S)
????????for?item?in?myItems:
????????????data?=?self.myTool.Replace_Char(item[1].replace(“\n“““).encode(‘utf-8‘))
????????????self.datas.append(data+‘\n‘)
????????????data?=?self.myTool.Replace_Char(item[0].replace(“\n“““).encode(‘utf-8‘))
????????????self.datas.append(data+‘\n‘)
??????????????
??
??
??
#--------?程序入口處?------------------??
print?u“““#---------------------------------------?
#???程序:360新聞標(biāo)題獲取?
#???版本:0.5?
#???作者:閑云?
#???日期:2013-11-03?
#???語(yǔ)言:Python?2.7?
#???操作:獲取360當(dāng)日的新聞標(biāo)題?
#???功能:將360新聞的內(nèi)容打包doc存儲(chǔ)到本地。?
#---------------------------------------?
“““??
??

??
print?u‘360新聞獲取‘??
bdurl?=

?屬性????????????大小?????日期????時(shí)間???名稱
-----------?---------??----------?-----??----

?????文件???????3760??2013-11-03?19:11??python爬蟲(chóng)樣例\360新聞爬蟲(chóng).py

?????文件???????5531??2013-11-02?22:53??python爬蟲(chóng)樣例\百度貼吧看小說(shuō)爬蟲(chóng).py

?????文件???????4932??2013-11-02?22:21??python爬蟲(chóng)樣例\糗事百科爬蟲(chóng).py

?????目錄??????????0??2013-11-16?12:20??python爬蟲(chóng)樣例

-----------?---------??----------?-----??----

????????????????14223????????????????????4


評(píng)論

共有 條評(píng)論