利用selenium對拉勾網的爬蟲并將數據導入mysql數據庫

大小: 5KB

文件類型: .py

金幣: 1

下載: 1 次

發布日期: 2021-06-10
語言: Python
標簽: python爬蟲??selenium??

高速下載

資源簡介

利用selenium+pyquery對拉勾網進行爬取相應招聘信息，并且將爬取到的信息導入數據庫mysql中，

資源截圖

小圖大圖

代碼片段和文件信息

import?re
import?time
from?selenium?import?webdriver
from?selenium.webdriver.common.by?import?By
from?selenium.webdriver.support.ui?import?WebDriverWait
from?selenium.webdriver.support?import?expected_conditions?as?EC
from?pyquery?import?PyQuery?as?pq
#?from?config?import?*
import?pymysql


browser?=?webdriver.Chrome（）
wait?=?WebDriverWait（browser?10）

key_word?=?‘python爬蟲‘
host=“localhost“
user=“root“
password=“******“
db=“lagou“
TableName=‘shenzhen‘
sitys?=?{‘beijing‘:‘1‘?‘shanghai‘:‘2‘?‘shenzhen‘:‘3‘?‘guangzhou‘:‘4‘?‘hangzhou‘:‘5‘‘chengdou‘:‘6‘?‘nanjing‘:‘7‘?‘wuhan‘:‘8‘‘xian‘:‘9‘?‘xiamen‘:‘10‘}
key_sity?=?‘guangzhou‘

def?search（）:
????try:
????????url?=?‘https://www.lagou.com/‘
????????browser.get（url）
????????if?wait.until（EC.element_to_be_clickable（（By.CSS_SELECTOR?‘#cboxClose‘）））:
????????????close_submit?=?wait.until（EC.element_to_be_clickable（（By.CSS_SELECTOR?‘#cboxClose‘）））
????????????close_submit.click（）
????????input?=?wait.until（EC.presence_of_element_located（（By.CSS_SELECTOR?‘#search_input‘）））
????????submit?=?wait.until（EC.element_to_be_clickable（（By.CSS_SELECTOR?‘#search_button‘）））
????????time.sleep（1）
????????input.clear（）
????????input.send_keys（key_word）
????????submit.click（）
????????city_select=wait.until（EC.element_to_be_clickable（（By.CSS_SELECTOR
????????????‘#filterCollapse?>?div:nth-child（1）?>?div.choose-detail?>?li?>?div.other-hot-city?>?div?>?a:nth-child（%s）‘?%
????????????sitys[key_sity]）））
????????city_select.click（）
????????total_page?=?wait.until（EC.presence_of_element_located（（By.CSS_SELECTOR?‘#s_position_list?>?div.item_con_pager?>?div?>?span:nth-child（5）‘）））
????????job_num?=?wait.until（EC.presence_of_element_located（（By.CSS_SELECTOR?‘#tab_pos?>?span‘）））
????????return?total_page.textjob_num.text
????except?TimeoutError:
????????print（TimeoutError）
????????return?search（）


def?get_html（）:
????wait.until（EC.presence_of_element_located（（By.CSS_SELECTOR?‘#s_position_list?.item_con_list?.con_list_item‘）））
????html?=?browser.page_source
????return?html


def?next_page（）:
????counter?=?1
????get_products（）
????pattern=re.compile（‘···.*?“pager_not_current“>（.*?）‘?re.S）
????total_page?=?re.findall（pattern?get_html（））[0].strip（）
????try:
????????f

上一篇：在線順序極限學習機OS-ELM的python實現
下一篇：使用python tkinter制作計算器源碼

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

利用selenium對拉勾網的爬蟲并將數據導入mysql數據庫

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源