-
大小: 652KB文件類型: .doc金幣: 1下載: 0 次發(fā)布日期: 2021-06-12
- 語(yǔ)言: Java
- 標(biāo)簽:
資源簡(jiǎn)介
網(wǎng)絡(luò)爬蟲是一種自動(dòng)搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡(luò)爬蟲不僅能夠?yàn)樗阉饕娌杉W(wǎng)絡(luò)信息,而且可以作為定向信息采集器,定向采集某些網(wǎng)站下的特定信息,如招聘信息,租房信息等。
本文通過JAVA實(shí)現(xiàn)了一個(gè)基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實(shí)現(xiàn)廣度優(yōu)先爬行;為何要使用多線程,以及如何實(shí)現(xiàn)多線程;系統(tǒng)實(shí)現(xiàn)過程中的數(shù)據(jù)存儲(chǔ);網(wǎng)頁(yè)信息解析等。
通過實(shí)現(xiàn)這一爬蟲程序,可以搜集某一站點(diǎn)的URLs,并將搜集到的URLs存入數(shù)據(jù)庫(kù)。
代碼片段和文件信息
評(píng)論
共有 條評(píng)論