91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 7KB
    文件類型: .rar
    金幣: 2
    下載: 1 次
    發布日期: 2021-06-06
  • 語言: Python
  • 標簽: 爬蟲??港口信息??

資源簡介

IDE使用的是VS2015 自己學習了一段時間Python的基礎知識后,編寫的從網上爬取的世界港口數據,并存儲到SQL Server數據庫中。如果在使用的時候發現引用庫無法識別,先將這些庫注冊一下,注冊方法自行百度,比較簡單

資源截圖

代碼片段和文件信息

import?requests
from?bs4?import?BeautifulSoup
import?re
import?pymssql

server?=?“xxxx“
user?=?“xx“
password?=?“xxx“
database?=?“xx“
conn?=?pymssql.connect(server?user?password?database)
cursor?=?conn.cursor()


#定義一個變量url,為需要爬取數據我網頁網址
url?=?‘http://gangkou.00cha.net/‘

#獲取這個網頁的源代碼,存放在req中,{}中為不同瀏覽器的不同User-Agent屬性,針對不同瀏覽器可以自行百度
req?=?requests.get(url{‘User-Agent‘:?‘Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/76.0.3809.100?Safari/537.36‘})
req.encoding?=?‘gb2312‘
#生成一個Beautifulsoup對象,用以后邊的查找工作
soup?=?BeautifulSoup(req.text‘lxml‘)

#找到所有a標簽中的內容并存放在xml這樣一個類似于數組隊列的對象中
xml?=?soup.find_all(‘a‘)
gj=[]
#查找國家港口的URL
for?k?in?xml:
????if?‘gj_‘?in?k[‘href‘]:
????????gj.append(k[‘href‘])

for?l?in?gj:
????????urlgj=‘http://gangkou.00cha.net/‘+l
????????#獲取這個網頁的源代碼,存放在req中,{}中為不同瀏覽器的不同User-Agent屬性,針對不同瀏覽器可以自行百度
????????reqgj?=?requests.get(urlgj{‘User-Agent‘:?‘Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/76.0.3809.100?Safari/537.36‘})
????????reqgj.encoding?=?‘gb2312‘
????????#生成一個Beautifulsoup對象,用以后邊的查找工作
????????soupgj?=?BeautifulSoup(reqgj.text‘lxml‘)
????????#找到所有a標簽中的內容并存放在xml這樣一個類似于數組隊列的對象中
????????xmlgj?=?soupgj.find_all(‘a‘)
????????#查找國家港口的URL
????????for?kgj?in?xmlgj:
????????????if?‘gk_‘?in?kgj[‘href‘]:
????????????????urlgk=‘http://gangkou.00cha.net/‘+kgj[‘href‘]
????????????????reqgk?=?requests.get(urlgk{‘User-Agent‘:?‘Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML?like?Gecko)?Chrome/76.0.3809.100?Safari/537.36‘})
????????????????reqgk.encoding?=?‘gb2312‘
????????????????soupgk?=?BeautifulSoup(reqgk.text‘lxml‘)
????????????????#keylatlon1=soupgk.find(key1)
????????????????trarry=[]
????????????????for?tr?in?soupgk.find_all(‘tr‘):
????????????????????tdarry=[]
????????????????????for?td?in?tr.find_all(‘td‘):
????????????????????????text?=?td.text.replace(‘\u3000‘‘‘).replace(‘ ‘‘?‘)
????????????????????????tdarry.append(text)
????????????????????trarry.append(tdarry)
????????????????#tab2=[]
????????????????#for?tab?in?trarry:
????????????????#????ctab2=[]
????????????????#????for?ctab?in?tab:
????????????????#????????ctab2.append(ctab.replace(‘\u3000‘‘‘))
????????????????#????tab2.append(ctab2)
????????????????keylonlat1=‘LatLng‘#設置經緯度關鍵字1
????????????????keylonlat2=“);“#設置經緯度關鍵字2
????????????????plonlata=reqgk.text.find(keylonlat1)#找出關鍵字1的位置
????????????????plonlatt=reqgk.text.find(keylonlat2plonlata)#找出關鍵字2的位置(從字1后面開始查找)
????????????????lonlat=reqgk.text[plonlata:plonlatt+1]#得到關鍵字1與關鍵字2之間的內容(即想要的數據)
????????????????lonlat=?re.findall(r‘[(](.*?)[)]‘?lonlat)
????????????????introarry=[]
????????????????for?introduce?in?soupgk.find_all(‘div‘?class_=‘bei?lh‘):
????????????????????if?‘港口介紹‘?in?introduce.text:
????????????????????????introarry.append([introduce.text.replace(?‘\ufffd‘‘‘).replace(?‘\xe6‘‘‘).replace(‘ ‘‘?‘)])
????????????????try:
???????

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----

????..A..H.?????31232??2019-08-16?12:12??port\.vs\port\v14\.suo

?????文件???????5859??2019-08-19?13:38??port\port\port.py

?????文件???????1897??2019-08-15?13:02??port\port\port.pyproj

?????文件????????815??2019-08-15?13:02??port\port.sln

?????目錄??????????0??2019-08-15?13:02??port\.vs\port\v14

?????目錄??????????0??2019-08-15?13:02??port\.vs\port

????...D.H.?????????0??2019-08-15?13:02??port\.vs

?????目錄??????????0??2019-08-19?13:38??port\port

?????目錄??????????0??2019-08-15?13:02??port

-----------?---------??----------?-----??----

????????????????39803????????????????????9


評論

共有 條評論