資源簡介
本資源為新浪微博爬蟲,目前支持針對用戶爬取、針對超話爬取、針對地點爬取三種模式。
爬取的信息有:rid、用戶名稱、微博等級、微博內容、微博轉發量、微博評論量、微博點贊、發布時間 發布設備、話題名稱、@用戶、搜索地點以及用戶發過的照片等;詳情使用請看文檔里的ReadME說明。
爬取的信息有:rid、用戶名稱、微博等級、微博內容、微博轉發量、微博評論量、微博點贊、發布時間 發布設備、話題名稱、@用戶、搜索地點以及用戶發過的照片等;詳情使用請看文檔里的ReadME說明。

代碼片段和文件信息
#!/usr/bin/env?python3
#?-*-?coding:?utf-8?-*-
“““
Created?on?Mon?Apr??8?10:44:58?2019
@author:?chenjianyao
“““
import?xlrd
import?xlwt
from?xlutils.copy?import?copy
def?write_excel_xls(path?sheet_name?value):
????index?=?len(value)??#?獲取需要寫入數據的行數
????workbook?=?xlwt.Workbook()??#?新建一個工作簿
????sheet?=?workbook.add_sheet(sheet_name)??#?在工作簿中新建一個表格
????for?i?in?range(0?index):
????????for?j?in?range(0?len(value[i])):
????????????sheet.write(i?j?value[i][j])??#?像表格中寫入數據(對應的行和列)
????workbook.save(path)??#?保存工作簿
????print(“xls格式表格寫入數據成功!“)
def?read_excel_xls(path):
????data?=?[]
????workbook?=?xlrd.open_workbook(path)??#?打開工作簿
????sheets?=?workbook.sheet_names()??#?獲取工作簿中的所有表格
????worksheet?=?workbook.sheet_by_name(sheets[0])??#?獲取工作簿中所有表格中的的第一個表格
????if?worksheet.nrows?==?1:
????????print(“目前是第一行“)
????else:
????????for?i?in?range(1?worksheet.nrows):?#從第二行取值
????????????dataTemp?=?[]
????????????for?j?in?range(0?worksheet.ncols):
????????????????#print(worksheet.cell_value(i?j)?“\t“?end=““)??#?逐行逐列讀取數據
????????????????dataTemp.append(worksheet.cell_value(i?j))
????????????data.append(dataTemp)
????return?data
?????
def?write_excel_xls_append_norepeat(path?value):
????workbook?=?xlrd.open_workbook(path)??#?打開工作簿
????sheets?=?workbook.sheet_names()??#?獲取工作簿中的所有表格
????worksheet?=?workbook.sheet_by_name(sheets[0])??#?獲取工作簿中所有表格中的的第一個表格
????rows_old?=?worksheet.nrows??#?獲取表格中已存在的數據的行數
????new_workbook?=?copy(workbook)??#?將xlrd對象拷貝轉化為xlwt對象
????new_worksheet?=?new_workbook.get_sheet(0)??#?獲取轉化后工作簿中的第一個表格
????rid?=?0
????for?i?in?range(0?len(value)):
????????data?=?read_excel_xls(path)
????????data_temp?=?[]
????????for?m?in?range(0len(data)):
????????????data_temp.append(data[m][1:len(data[m])])
????????value_temp?=?[]
????????for?m?in?range(0len(value)):
????????????value_temp.append(value[m][1:len(value[m])])
????????
????????if?value_temp[i]?not?in?data_temp:
????????????for?j?in?range(0?len(value[i])):
????????????????new_worksheet.write(rid+rows_old?j?value[i][j])??#?追加寫入數據,注意是從i+rows_old行開始寫入
????????????rid?=?rid?+?1
????????????new_workbook.save(path)??#?保存工作簿
????????????print(“xls格式表格【追加】寫入數據成功!“)
????????else:
????????????print(“數據重復“)
????
?????
????
???
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2019-12-21?14:08??weiboSpider\
?????文件???????14412??2019-07-01?18:43??weiboSpider\README.md
?????目錄???????????0??2019-12-21?14:07??weiboSpider\driver\
?????文件?????8393728??2019-07-12?09:30??weiboSpider\driver\chromedriver.exe
?????文件????????2671??2019-07-23?17:19??weiboSpider\driver\excelSave.py
?????文件???????10235??2019-07-23?17:19??weiboSpider\driver\weiboTest.py
?????文件????????2671??2019-07-23?17:19??weiboSpider\excelSave.py
?????目錄???????????0??2019-12-21?14:08??weiboSpider\locationPic\
?????文件??????????42??2019-07-01?18:43??weiboSpider\requirements.txt
?????文件????????8012??2019-12-15?09:52??weiboSpider\searchKeyword.py
?????文件?????????724??2019-07-25?15:22??weiboSpider\test.py
?????文件???????18446??2019-07-30?16:32??weiboSpider\updateWeiboUser.py
?????目錄???????????0??2019-12-21?14:08??weiboSpider\weibo\
?????文件???????12303??2019-12-15?09:54??weiboSpider\weiboLocation.py
?????文件??????108544??2019-12-15?09:59??weiboSpider\weiboLocation.xls
?????文件???????10184??2019-12-15?09:53??weiboSpider\weiboSuperWords.py
?????文件???????19088??2019-10-04?19:12??weiboSpider\weiboUser.py
?????文件??????????27??2019-12-15?09:59??weiboSpider\weiboUsers.csv
- 上一篇:IEEE1588協議原文
- 下一篇:Axure快速原型設計PDF
評論
共有 條評論