91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 4.97KB
    文件類型: .py
    金幣: 1
    下載: 0 次
    發布日期: 2021-03-27
  • 語言: 其他
  • 標簽: 其他??

資源簡介


抓取了網易新聞里["國內","國際","航空"]和["軍事","科技","體育","教育"]板塊的新聞內容和評論并存到數據庫中。

資源截圖

代碼片段和文件信息

import?json
import?requests
import?re
from?selenium?import?webdriver
import?time
import?os
from?bs4?import?BeautifulSoup
import?pymysql

def?getHTMLText(url):
????try:
????????headers?=?{‘User-Agent‘:‘Mozilla/5.0?(Windows?NT?6.1;?WOW64;?rv:23.0)?Gecko/20100101?Firefox/23.0‘}
????????r?=?requests.get(url?headers=headerstimeout?=?30)
????????r.encoding?=?‘GBK‘
????????r.raise_for_status()
????????return?r.text
????except:
????????return?““
def?getContent(urlntype):
????#===============================獲取新聞頁面==============================
????tbnews_id?=?0
????commentids=[]
????print(url)
????html?=?getHTMLText(url)
????soup?=?BeautifulSoup(html“html.parser“)
????[s.extract()?for?s?in?soup([‘script‘‘style‘])]
????title?=?soup.find_all(“h1“)???????????#爬取標題
????if?title==[]:
????????return?
????else:tit=title[0].get_text()
????path?=?soup.select(“.post_crumb“)
????time=soup.select(“.post_time_source“)?????????????#爬取時間和來源
????if?time==[]:
????????tim?=?

評論

共有 條評論