資源簡(jiǎn)介
包含了糗事百科python爬蟲(chóng) 百度貼吧爬蟲(chóng) 和360新聞爬蟲(chóng)樣例 歡迎下載

代碼片段和文件信息
#?-*-?coding:?utf-8?-*-??
#---------------------------------------??
#???程序:360新聞標(biāo)題獲取器??
#???版本:0.5??
#???作者:閑云??
#???日期:2013-11-03??
#???語(yǔ)言:Python?2.7????
#???功能:將360新聞標(biāo)題的內(nèi)容打包txt存儲(chǔ)到本地。??
#---------------------------------------??
???
import?string??
import?urllib2??
import?re??
??
#-----------?處理頁(yè)面上的各種標(biāo)簽?-----------??
class?HTML_Tool:??
????#?用非?貪婪模式?匹配?\t?或者?\n?或者?空格?或者?超鏈接?或者?圖片??
????BgnCharToNoneRex?=?re.compile(“(\t|\n|?||)“)??
??????
????#?用非?貪婪模式?匹配?任意<>標(biāo)簽??
????EndCharToNoneRex?=?re.compile(“<.*?>“)??
??
????#?用非?貪婪模式?匹配?任意標(biāo)簽??
????BgnPartRex?=?re.compile(“
“)??
????CharToNewLineRex?=?re.compile(“(
||||)“)??
????CharToNextTabRex?=?re.compile(““)??
??
????#?將一些html的符號(hào)實(shí)體轉(zhuǎn)變?yōu)樵挤?hào)??
????replaceTab?=?[(“<““<“)(“>““>“)(“&““&“)(“&““\““)(“?““?“)]??
??????
????def?Replace_Char(selfx):??
????????x?=?self.BgnCharToNoneRex.sub(““x)??
????????x?=?self.BgnPartRex.sub(“\n????“x)??
????????x?=?self.CharToNewLineRex.sub(“\n“x)??
????????x?=?self.CharToNextTabRex.sub(“\t“x)??
????????x?=?self.EndCharToNoneRex.sub(““x)??
??
????????for?t?in?self.replaceTab:????
????????????x?=?x.replace(t[0]t[1])????
????????return?x????
??????
class?xw_News:??
????#?申明相關(guān)的屬性??
????def?__init__(selfurl):????
????????self.myUrl?=?url??
????????self.datas?=?[]??
????????self.myTool?=?HTML_Tool()??
????????print?u‘已經(jīng)啟動(dòng)360新聞爬蟲(chóng),咔嚓咔嚓‘??
????
????#?初始化加載頁(yè)面并將其轉(zhuǎn)碼儲(chǔ)存??
????def?News(self):??
????????#?讀取頁(yè)面的原始信息并將其從gbk轉(zhuǎn)碼??
????????myPage?=?urllib2.urlopen(self.myUrl).read().decode(“utf-8“)???
????????#?獲取最終的數(shù)據(jù)??
????????self.save_data(self.myUrl)???
????#?用來(lái)存儲(chǔ)樓主發(fā)布的內(nèi)容??
????def?save_data(selfurl):??
????????#?加載頁(yè)面數(shù)據(jù)到數(shù)組中??
????????self.get_data(url)??
????????#?打開(kāi)本地文件??
????????f?=?open((‘今日新聞?lì)^條.doc‘).decode(‘utf-8‘)‘w+‘)??
????????f.writelines(self.datas)??
????????f.close()??
????????print?u‘爬蟲(chóng)報(bào)告:文件已下載到本地并打包成doc文件‘??
????????print?u‘請(qǐng)按任意鍵退出...‘??
????????raw_input();??
??
????#?獲取頁(yè)面源碼并將其存儲(chǔ)到數(shù)組中??
????def?get_data(selfurl):??
????????????myPage?=?urllib2.urlopen(url).read()??
????????????#?將myPage中的html代碼處理并存儲(chǔ)到datas里面??
????????????self.deal_data(myPage.decode(‘utf-8‘))??
??????????????
??
????#?將內(nèi)容從頁(yè)面代碼中摳出來(lái)??
????def?deal_data(selfmyPage):??
????????myItems?=?re.findall(‘(.*?)‘myPagere.S)
????????for?item?in?myItems:
????????????data?=?self.myTool.Replace_Char(item[1].replace(“\n“““).encode(‘utf-8‘))
????????????self.datas.append(data+‘\n‘)
????????????data?=?self.myTool.Replace_Char(item[0].replace(“\n“““).encode(‘utf-8‘))
????????????self.datas.append(data+‘\n‘)
??????????????
??
??
??
#--------?程序入口處?------------------??
print?u“““#---------------------------------------?
#???程序:360新聞標(biāo)題獲取?
#???版本:0.5?
#???作者:閑云?
#???日期:2013-11-03?
#???語(yǔ)言:Python?2.7?
#???操作:獲取360當(dāng)日的新聞標(biāo)題?
#???功能:將360新聞的內(nèi)容打包doc存儲(chǔ)到本地。?
#---------------------------------------?
“““??
??
??
print?u‘360新聞獲取‘??
bdurl?=
?屬性????????????大小?????日期????時(shí)間???名稱
-----------?---------??----------?-----??----
?????文件???????3760??2013-11-03?19:11??python爬蟲(chóng)樣例\360新聞爬蟲(chóng).py
?????文件???????5531??2013-11-02?22:53??python爬蟲(chóng)樣例\百度貼吧看小說(shuō)爬蟲(chóng).py
?????文件???????4932??2013-11-02?22:21??python爬蟲(chóng)樣例\糗事百科爬蟲(chóng).py
?????目錄??????????0??2013-11-16?12:20??python爬蟲(chóng)樣例
-----------?---------??----------?-----??----
????????????????14223????????????????????4
評(píng)論
共有 條評(píng)論
相關(guān)資源
-
二級(jí)考試python試題12套(包括選擇題和
-
pywin32_python3.6_64位
-
python+ selenium教程
-
PycURL(Windows7/Win32)Python2.7安裝包 P
-
英文原版-Scientific Computing with Python
-
7.圖像風(fēng)格遷移 基于深度學(xué)習(xí) pyt
-
基于Python的學(xué)生管理系統(tǒng)
-
A Byte of Python(簡(jiǎn)明Python教程)(第
-
Python實(shí)例174946
-
Python 人臉識(shí)別
-
Python 人事管理系統(tǒng)
-
一個(gè)多線程智能爬蟲(chóng),爬取網(wǎng)站小說(shuō)
-
基于python-flask的個(gè)人博客系統(tǒng)
-
計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)流程
-
python 調(diào)用sftp斷點(diǎn)續(xù)傳文件
-
python socket游戲
-
基于Python爬蟲(chóng)爬取天氣預(yù)報(bào)信息
-
python函數(shù)編程和講解
-
頂點(diǎn)小說(shuō)單本書(shū)爬蟲(chóng).py
-
Python開(kāi)發(fā)的個(gè)人博客
-
基于python的三層神經(jīng)網(wǎng)絡(luò)模型搭建
-
python實(shí)現(xiàn)自動(dòng)操作windows應(yīng)用
-
python人臉識(shí)別(opencv)
-
python 繪圖(方形、線條、圓形)
-
python疫情卡UN管控
-
python 連連看小游戲源碼
-
基于PyQt5的視頻播放器設(shè)計(jì)
-
一個(gè)簡(jiǎn)單的python爬蟲(chóng)
-
csv文件行列轉(zhuǎn)換python實(shí)現(xiàn)代碼
-
Python操作Mysql教程手冊(cè)