資源簡介
一個java爬蟲上手小項目,用了一些粗糙的正則biaodashi
代碼片段和文件信息
package?pachong;
import?java.io.BufferedReader;
import?java.io.BufferedWriter;
import?java.io.File;
import?java.io.FileWriter;
import?java.io.IOException;
import?java.io.InputStreamReader;
import?java.io.PrintWriter;
import?java.net.URL;
import?java.net.URLConnection;
import?java.util.ArrayList;
import?java.util.regex.Matcher;
import?java.util.regex.Pattern;
public?class?pachong?{
static?String?SendGet(String?url)
{
//?定義一個字符串用來存儲網頁內容
String?result?=?““;
//?定義一個緩沖字符輸入流
BufferedReader?in?=?null;
try
{
//?將string轉成url對象
URL?realUrl?=?new?URL(url);
//?初始化一個鏈接到那個url的連接
URLConnection?connection?=?realUrl.openConnection();
//?開始實際的連接
connection.connect();
//?初始化?BufferedReader輸入流來讀取URL的響應
in?=?new?BufferedReader(new?InputStreamReader(connection.getInputStream()“utf-8“));
//?用來臨時存儲抓取到的每一行的數據
String?line;
while?((line?=?in.readLine())?!=?null)
{
//?遍歷抓取到的每一行并將其存儲到result里面
result?+=?line;
}
}?catch?(Exception?e)
{
System.out.println(“發送GET請求出現異常!“?+?e);
e.printStackTrace();
}
//?使用finally來關閉輸入流
finally
{
try
{
if?(in?!=?null)
{
in.close();
}
}?catch?(Exception?e2)
{
e2.printStackTrace();
}
}
return?result;
}
static?ArrayList?RegexString(String?targetStr?String?patternStrString?patternStr_headline)
{
ArrayList?results?=?new?ArrayList();
//去除html源碼中所有的空格符換行符
Pattern?p?=?Pattern.compile(“\\s*|\t|\r|\n“);
Matcher?m?=?p.matcher(targetStr);
targetStr?=?m.replaceAll(““);
//先獲取頭條的鏈接和標題
//?定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
//?相當于埋好了陷阱匹配的地方就會掉下去
Pattern?pattern_headline=Pattern.compile(patternStr_headline);
Matcher?matcher_headline=pattern_headline.matcher(targetStr);
if(matcher_headline.find())
- 上一篇:課設職工工資管理系統
- 下一篇:trident-7.0.jar
評論
共有 條評論