資源簡介
python實現對于整個網頁內容的爬取,簡單易寫,非常適合對python爬蟲的學習。

代碼片段和文件信息
import?urllib.request
import?re
path=“https://www.ittime.com.cn/news/chuangxin.shtml“
def?getData(path):
????content=urllib.request.urlopen(path).read().decode(“UTF-8““ignore“)
????#?print(content)
????imgRe=re.compile(r‘src=“(.*?\.jpg)“‘)
????imagePaths=imgRe.findall(content)
????print(“長度:“imagePaths.__len__())
????for?imagePath?in?imagePaths:
????????print(“https://www.ittime.com.cn“+imagePath)
????titleRe=re.compile(r‘(.*?)
‘)
????titles=titleRe.findall(content)
????print(“標題長度:“titles.__len__())
????for?title?in?titles:
????????print(title)
for?i?in?range(210):
????getData(f“https://www.ittime.com.cn/news/chuangxin_{i}.shtml“)
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2018-11-10?10:42??GetITNews\
?????目錄???????????0??2018-11-10?10:42??GetITNews\.idea\
?????文件?????????478??2018-11-10?10:18??GetITNews\.idea\GetITNews.iml
?????目錄???????????0??2018-11-10?10:18??GetITNews\.idea\inspectionProfiles\
?????文件?????????306??2018-11-10?10:18??GetITNews\.idea\misc.xm
?????文件?????????277??2018-11-10?10:18??GetITNews\.idea\modules.xm
?????文件????????9301??2018-11-10?10:42??GetITNews\.idea\workspace.xm
?????文件?????????724??2018-11-10?10:37??GetITNews\Test.py
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\
?????目錄???????????0??2018-11-10?10:18??GetITNews\venv\Include\
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\
?????文件??????????55??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\easy-install.pth
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\
?????文件???????????1??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\dependency_li
?????文件??????????98??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\entry_points.txt
?????文件???????????2??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\not-zip-safe
?????文件????????2972??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\PKG-INFO
?????文件??????????74??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\requires.txt
?????文件???????12502??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\SOURCES.txt
?????文件???????????4??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\top_level.txt
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\
?????文件???????14014??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
?????文件????????8764??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
?????文件????????2773??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\build_env.py
?????文件????????7023??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cache.py
?????文件???????16679??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cmdoptions.py
?????目錄???????????0??2018-11-10?10:42??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\
?????文件????????1500??2018-11-10?10:18??GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\check.py
............此處省略375個文件信息
評論
共有 條評論