資源簡介
1.CSpider文件夾下是我開始編寫前參考的開源代碼,結構比較清晰。單線程
2.任務概述是我這次寫spider的過程的描述,我做這次spider的目的是完成一項課程設計。
3.整個spider的開發過程為增量式,從最開始的單頁搜索url到最后的多線程spider,這在版本規劃中又很明顯的體現。每個版本都有自己的readme,其中詳細敘述了各個版本的不同
4.由于是初學者,我在每個版本中都是邊寫邊測試,以查找爬蟲的bug,所以代碼中有很多被注釋的段落可能是測試使用。
5.具體版本信息查看各自的readme
另外,爬蟲不止提取了url,同時提取了相應的錨文本。這個提取過程導致了爬蟲速度的下降,
代碼片段和文件信息
- 上一篇:C# 、.NET 讀取AD域里用戶名或組
- 下一篇:VB和C#互相調用
評論
共有 條評論