Python爬蟲抓取網頁新聞數據到sqlserver數據庫中

大小: 3KB

文件類型: .py

金幣: 1

下載: 0 次

發布日期: 2021-01-03
語言: Python
標簽: python??新聞爬取??sqlser??

高速下載

資源簡介

Python爬蟲抓取網頁新聞數據到sqlserver數據庫，按標題排除重復項，python3.7運行環境

資源截圖

小圖大圖

代碼片段和文件信息

#coding=utf-8
‘‘‘
Created?on?2018年10月31日
@author:?lhm
測試代碼
‘‘‘
import?random
import?time
import?requests
import?re
from?bs4?import?BeautifulSoup
import?pyodbc


def?getHTMLText（url）:
????try:
????????r?=?requests.get（url?timeout?=?30）
????????r.raise_for_status（）
????????#r.encoding?=?‘utf-8‘
????????return?r.text
????except:
????????return?““

‘‘‘
getNewsPakge（）
此函數用于獲取News列表頁面的url鏈接
返回值為列表pakge_urls
‘‘‘
def?getNewsPakge（）:
????pakge_urls?=?[]
????for?i?in?range（112）:
????????if?i?!=?1:
????????????url?=?‘http://fund.eastmoney.com/a/cjjyw_‘?+?str（i）?+?‘.html‘
????????else:
????????????url?=?‘http://fund.eastmoney.com/a/cjjyw.html‘
????????print（url）
????????pakge_urls.append（url）
????return?pakge_urls
?
‘‘‘
getNewsUrls（）
此函數用于獲取News鏈接用于后面的信息的訪問ur

上一篇：python語言提取abaqus的odb文件數據的簡單程序
下一篇：python爬取豆瓣電影Top250

91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

Python爬蟲抓取網頁新聞數據到sqlserver數據庫中

資源簡介

資源截圖

代碼片段和文件信息

評論

相關資源