資源簡介
百度貼吧的爬蟲制作和糗百的爬蟲制作原理基本相同,都是通過查看源碼扣出關鍵數(shù)據(jù),然后將其存儲到本地txt文件。
項目內(nèi)容:
用Python寫的百度貼吧的網(wǎng)絡爬蟲。
使用方法:
新建一個BugBaidu.py文件,然后將代碼復制到里面后,雙擊運行。
程序功能:
將貼吧中樓主發(fā)布的內(nèi)容打包txt存儲到本地。
http://blog.csdn.net/wxg694175346/article/details/8934726
代碼片段和文件信息
#?-*-?coding:?utf-8?-*-
#---------------------------------------
#???程序:百度貼吧爬蟲
#???版本:0.4
#???作者:why
#???日期:2013-05-16
#???語言:Python?2.7
#???操作:輸入網(wǎng)址后自動只看樓主并保存到本地文件
#???功能:將樓主發(fā)布的內(nèi)容打包txt存儲到本地。
#---------------------------------------
?
import?string
import?urllib2
import?re
#-----------?處理頁面上的各種標簽?-----------
class?HTML_Tool:
????#?用非?貪婪模式?匹配?\t?或者?\n?或者?空格?或者?超鏈接?或者?圖片
????BgnCharToNoneRex?=?re.compile(“(\t|\n|?||)“)
????
????#?用非?貪婪模式?匹配?任意<>標簽
????EndCharToNoneRex?=?re.compile(“<.*?>“)
????#?用非?貪婪模式?匹配?任意標簽
????BgnPartRex?=?re.compile(“
“)
????CharToNewLineRex?=?re.compile(“(
||||)“)
????CharToNextTabRex?=?re.compile(““)
????#?將一些html的符號實體轉(zhuǎn)變?yōu)樵挤?br/>????replaceTab?=?[(“<““<“)(“>““>“)(“&““&“)(“&am
評論
共有 條評論
相關資源
-
python一個打磚塊的小游戲
-
python實驗指導書 圖文高清版
-
python主動安裝第三方庫
-
python爬取豆瓣top250電影信息
-
python繪制 大蟒蛇
-
python小程序(數(shù)組排序)
-
Python去水印(基于cv2)
-
Python 數(shù)據(jù)結(jié)構(gòu)入門 - 二叉搜索樹(
-
python空心電感計算器
-
python除法.docx
-
抽獎背后的秘密(python抽獎邏輯)
-
繪制統(tǒng)計學直方圖莖葉圖(matplotlib)
-
python求解標準差
-
python數(shù)據(jù)分析與處理
-
利用Python將照片在Excel中利用點陣圖顯
-
python turtle 跳房子
-
python 人群計數(shù)
-
Python調(diào)用第三方API換臉
-
“去哪兒吃”幫你選餐廳(python代碼
-
python 控制臺登陸密碼驗證
-
KNN算法的Python實現(xiàn)(datingrecd.ipynb)
-
python核心編程第二版-習題答案
-
python爬取筆趣閣小說
-
Python程序設計基礎試題以及答案(3
-
python聊天-服務端與客戶端
-
python遞歸求最大公約數(shù)
-
用python畫皮卡丘(基于turtle)
-
偉哥的python私房菜(中國程序員).
-
pip一鍵升級(python腳本)
-
我的世界python編程——天空行走py格式