91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

資源簡介

百度貼吧的爬蟲制作和糗百的爬蟲制作原理基本相同,都是通過查看源碼扣出關鍵數(shù)據(jù),然后將其存儲到本地txt文件。 項目內(nèi)容: 用Python寫的百度貼吧的網(wǎng)絡爬蟲。 使用方法: 新建一個BugBaidu.py文件,然后將代碼復制到里面后,雙擊運行。 程序功能: 將貼吧中樓主發(fā)布的內(nèi)容打包txt存儲到本地。 http://blog.csdn.net/wxg694175346/article/details/8934726

資源截圖

代碼片段和文件信息

#?-*-?coding:?utf-8?-*-
#---------------------------------------
#???程序:百度貼吧爬蟲
#???版本:0.4
#???作者:why
#???日期:2013-05-16
#???語言:Python?2.7
#???操作:輸入網(wǎng)址后自動只看樓主并保存到本地文件
#???功能:將樓主發(fā)布的內(nèi)容打包txt存儲到本地。
#---------------------------------------
?
import?string
import?urllib2
import?re

#-----------?處理頁面上的各種標簽?-----------
class?HTML_Tool:
????#?用非?貪婪模式?匹配?\t?或者?\n?或者?空格?或者?超鏈接?或者?圖片
????BgnCharToNoneRex?=?re.compile(“(\t|\n|?||)“)
????
????#?用非?貪婪模式?匹配?任意<>標簽
????EndCharToNoneRex?=?re.compile(“<.*?>“)

????#?用非?貪婪模式?匹配?任意

標簽
????BgnPartRex?=?re.compile(““)
????CharToNewLineRex?=?re.compile(“(
|

||
|
)“)
????CharToNextTabRex?=?re.compile(““)

????#?將一些html的符號實體轉(zhuǎn)變?yōu)樵挤?br/>????replaceTab?=?[(“<““<“)(“>““>“)(“&““&“)(“&am

評論

共有 條評論