91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 369KB
    文件類型: .zip
    金幣: 2
    下載: 0 次
    發布日期: 2021-06-02
  • 語言: Java
  • 標簽: java??爬蟲??

資源簡介

java 實現簡單爬蟲,爬取圖片。 根據爬取頁面內容,使用jsoup解析html頁面,獲取需要的路徑,進行循環下載。 博客:https://blog.csdn.net/qq_37902949/article/details/81257065

資源截圖

代碼片段和文件信息

package?com.gx.reptile.util;

import?java.io.ByteArrayOutputStream;
import?java.io.File;
import?java.io.FileOutputStream;
import?java.io.IOException;
import?java.io.InputStream;
import?java.net.HttpURLConnection;
import?java.net.URL;
import?java.util.ArrayList;
import?java.util.List;

import?org.jsoup.Jsoup;
import?org.jsoup.nodes.Document;
import?org.jsoup.select.Elements;

/**
?*?
*?@ClassName:?ReptileUtil?
*?@Description:?圖片爬蟲?--?使用jsoup解析html頁面,獲取需要的路徑,進行循環下載
*?@author?zhoujie?
*?@date?2018年7月27日?下午8:26:01?
*?@version?V1.0
*?百度
?*/
public?class?ReptileUtil?{

//定義路徑
static?String?baseurl?=?“http://www.netbian.com/“;
static?String?geturl?=?“http://www.netbian.com/desk/18321.htm“;
static?String?filepath?=?“C:\\Users\\zj\\Desktop\\new\\“;

public?static?void?main(String[]?args)?{
System.out.println(“初始下載頁面:“+geturl);
String?html?=?getHtml(geturl);?//html頁面內容
List?srclists?=?getImgSrcListFromHtml(html);?//圖片地址集合
downloadImg(srclists?filepath);?//下載圖片
//獲取下一個頁面進行下載
List?list?=?getNextPageUrl(html);?
System.out.println(list.size());
for?(int?i?=?0;?i? String?url?=?list.get(i);
System.out.println(“下一個下載頁面:“+url);
String?html2?=?getHtml(url);?//html頁面內容
List?srclists2?=?getImgSrcListFromHtml(html2);?//圖片地址集合
downloadImg(srclists2?filepath);?//下載圖片
}
System.out.println(“下載完畢“);
}

/**
?*?
*?@title:?getHtml?
*?@Description:?獲取頁面內容
*?@param?@param?url
*?@param?@return??頁面內容
*?@return?String??返回類型?
*?@throws
?*/
public?static?String?getHtml(String?url){
String?html?=?““;
try?{
html?=?Jsoup.connect(url).execute().body();
}?catch?(IOException?e)?{
e.printStackTrace();
}
return?html;
}

/**
?*?
*?@title:?getImgSrcListFromHtml?
*?@Description:?獲取頁面內容圖片路徑
*?@param?@param?html??頁面內容
*?@param?@return????圖片路徑數組
*?@return?ArrayList????返回類型?
*?@throws
?*/
public?static?List?getImgSrcListFromHtml(String?html){
List?list?=?new?ArrayList<>();
//解析成html頁面
Document?document?=?Jsoup.parse(html);
//獲取目標
Elements?elements?=?document.select(“div?[class=pic]“).select(“img“);
int?len?=?elements.size();
for?(int?i?=?0;?i? list.add(elements.get(i).attr(“src“));
}
return?list;
}

/**
?*?
*?@title:?getNextPage?
*?@Description:?從頁面內容中獲取下一個頁面路徑
*?@param?????頁面內容
*?@return?List??返回頁面url數組
*?@throws
?*/
public?static?List?getNextPageUrl(String?html){
List?list?=?new?ArrayList<>();
//解析成html頁面
Document?document?=?Jsoup.parse(html);
//獲取目標
Elements?elements?=?document.select(“div?[class=list]“).select(“a“);
for?(int?i?=?0;i String?url?=?baseurl?+?elements.get(i).attr(“href“);
list.add(url);
}
return?list;
}

/**
?*?
*?@title:?downloadImg?
*?@Description:?下載圖片?--?通過獲取的流轉成

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\
?????文件?????????848??2018-07-27?20:19??ReptileDemo\.classpath
?????文件?????????911??2018-07-27?20:19??ReptileDemo\.project
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\.settings\
?????文件?????????564??2018-07-27?20:19??ReptileDemo\.settings\.jsdtscope
?????文件?????????364??2018-07-27?20:19??ReptileDemo\.settings\org.eclipse.jdt.core.prefs
?????文件?????????492??2018-07-27?20:19??ReptileDemo\.settings\org.eclipse.wst.common.component
?????文件?????????345??2018-07-27?20:19??ReptileDemo\.settings\org.eclipse.wst.common.project.facet.core.xml
?????文件??????????49??2018-07-27?20:19??ReptileDemo\.settings\org.eclipse.wst.jsdt.ui.superType.container
?????文件???????????6??2018-07-27?20:19??ReptileDemo\.settings\org.eclipse.wst.jsdt.ui.superType.name
?????文件???????????0??2018-07-27?20:22??ReptileDemo\readme
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\src\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\src\com\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\src\com\gx\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\src\com\gx\reptile\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\src\com\gx\reptile\util\
?????文件????????5263??2018-07-28?08:46??ReptileDemo\src\com\gx\reptile\util\ReptileUtil.java
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\meta-INF\
?????文件??????????39??2018-07-27?20:19??ReptileDemo\WebRoot\meta-INF\MANIFEST.MF
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\classes\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\classes\com\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\classes\com\gx\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\classes\com\gx\reptile\
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\classes\com\gx\reptile\util\
?????文件????????5600??2018-07-28?08:46??ReptileDemo\WebRoot\WEB-INF\classes\com\gx\reptile\util\ReptileUtil.class
?????目錄???????????0??2018-07-28?09:05??ReptileDemo\WebRoot\WEB-INF\lib\
?????文件??????395748??2018-07-27?20:34??ReptileDemo\WebRoot\WEB-INF\lib\jsoup-1.11.3.jar
?????文件?????????654??2018-07-27?20:19??ReptileDemo\WebRoot\WEB-INF\web.xml

評論

共有 條評論